微博作为一个重要的信息平台,每天都有大量用户访问,重要的舆论事件在微博上会形成热门话题。本文提出了一种新的微博话题发现方法:基于词共现网络的话题发现方法(Topic detection in freqent word network,TDFWN),来挖掘微博语料中蕴...
详细信息
微博作为一个重要的信息平台,每天都有大量用户访问,重要的舆论事件在微博上会形成热门话题。本文提出了一种新的微博话题发现方法:基于词共现网络的话题发现方法(Topic detection in freqent word network,TDFWN),来挖掘微博语料中蕴含的热点话题。该方法首先对微博文本中的k频繁词集(k≥3)进行挖掘,利用频繁词集的共现关系构建词共现网络。对该网络进行社区划分,同一社区内的词通常描述同一微博话题,即话题以社区的形式出现。实验结果表明TDFWN算法能够快速、全面地发现微博中的热门话题,并且可以实现微博文本的自动聚类。
基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态数据集下的基于模式的贝叶斯分类器就不能适用.为了解决这些问题,提出了基于显露模式的数据流贝叶斯分类模型EPDS(Bayesian classifier algorithm based on emerging pattern for data stream).该模型使用一个简单的混合森林结构来维护内存中事务的项集,并采用一种快速的模式抽取机制来提高算法速度.EPDS采用半懒惰式学习策略持续更新显露模式,并为待分类事务在每个类下建立局部分类模型.大量实验结果表明,该算法比其他数据流分类模型有较高的准确度.
暂无评论