版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:湖北师范大学计算机科学与技术学院湖北黄石435002 黄冈师范学院数学与统计学院湖北黄冈438000
出 版 物:《湖北师范大学学报(自然科学版)》 (Journal of Hubei Normal University:Natural Science)
年 卷 期:2019年第39卷第3期
页 面:1-7页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题。基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析。结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系。该方法可推广应用于自动模式识别、网络舆情预测等大数据应用领域。