版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:烟台大学计算机与控制工程学院山东烟台264005
出 版 物:《山东大学学报(工学版)》 (Journal of Shandong University(Engineering Science))
年 卷 期:2018年第48卷第6期
页 面:37-43页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山东省自然科学基金(ZR2016FM42) 山东省重点研发计划(2016GGX109004) 国家海洋局"十三五"海洋经济创新发展示范重点项目(YHC-ZB-P201701) 国家自然科学基金(61702439)
主 题:话题跟踪 N-Gram语言模型 朴素贝叶斯分类 MapReduce计算模型
摘 要:针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于NGram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。