咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Hadoop的微博热点话题挖掘原型系统研究与实现 收藏
基于Hadoop的微博热点话题挖掘原型系统研究与实现

基于Hadoop的微博热点话题挖掘原型系统研究与实现

作     者:庄中方 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:吴国仕

授予年度:2013年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文本挖掘 系统架构 热点话题挖掘 新浪微博 用户产生内容 MapReduce算法 

摘      要:随着以新浪微博为代表的富含“用户产生内容(User-generatedContents,UGC)的网站的兴起,由于其带来的巨大的商业和社会意义,已经有很多研究机构和人员对其进行了一系列研究。在这些研究中,对于短时间内突发的热门事件的探测成为了一个主要的关注点,营销人员可以利用热门事件和话题进行有针对性的推荐和市场营销,公共服务机构可以利用这些热门事件和话题来提升他们的服务质量,政策制定者可以根据一些热门话题对于民意进行观察。正是由于这些需求才促使了挖掘微博热点话题成为了一个很关键的研究项目。\n 本文在研究了中文文本的特点以及文本挖掘中的相关算法之后,提出了在由热门关键词构成的图中利用社团挖掘的手段对热门的关键词群进行挖掘。由于微博文本的数据集巨大以及微博文本异于其他类型文本的特点,一般可以用于单机环境的文本挖掘解决方案对于这类大数据集的处理效率不高,故本文引入了Hadoop分布式平台来作为支撑此环境的平台。本文对于Hadoop及其相关的开源项目研究和讨论,对文本的处理进行了一定的研究,通过编写基于MapReduce的算法构建了一个包含词语TF-IDF计算、排序以及倒排索引方法的可以处理大数据集的解决方案。在此基础上,本文对原型系统分别进行了处理性能测试以及准确率测试,并对测试的结果进行了分析。然后本文对该系统中需要和可能的改进的地方进行了说明,并讨论了未来的研究方向。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分