咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Scrapy的分布式数据采集与分析——以知乎话题为例 收藏

基于Scrapy的分布式数据采集与分析——以知乎话题为例

Distributed crawling and data analysis based on scrapy ——taking ZhiHu topic for example

作     者:李光敏 李平 汪聪 LI Guang-min;LI Ping;WANG Cong

作者机构:湖北师范大学计算机科学与技术学院湖北黄石435002 黄冈师范学院数学与统计学院湖北黄冈438000 

出 版 物:《湖北师范大学学报(自然科学版)》 (Journal of Hubei Normal University:Natural Science)

年 卷 期:2019年第39卷第3期

页      面:1-7页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:湖北省教育厅科研计划重点项目(D20172502) 

主  题:Scrapy 分布式 数据分析 知乎 

摘      要:随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题。基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析。结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系。该方法可推广应用于自动模式识别、网络舆情预测等大数据应用领域。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分