在上世纪90年代末兴起,并于2002年引入到中国互联网的BLOG( Web log,网志,俗称“博客”)在短短几年时间内已经发展成万维网上最具活力的、发展最迅猛的虚拟社区。博客空间(blogspace)作为一个有着成千上万用户在其上进行个人观点等信息...
详细信息
在上世纪90年代末兴起,并于2002年引入到中国互联网的BLOG( Web log,网志,俗称“博客”)在短短几年时间内已经发展成万维网上最具活力的、发展最迅猛的虚拟社区。博客空间(blogspace)作为一个有着成千上万用户在其上进行个人观点等信息交换的平台,蕴藏着巨大的商业价值。例如,针对商品调查这个特定领域,我们知道最重要的就是要得到实际客户对某商品的评价。这些评价信息不仅对商家极其重要,而且对潜在客户也有很好的参考价值。分析这些收集来的BLOG帖子(post)的关键技术是文本倾向性分析,它在在商业产品评论分析、网络舆情分析及垃圾邮件过滤等领域均有着广泛的应用前景。
目前两类主流的文本倾向性分析方法(即基于语义的文本倾向性分析方法和基于机器学习的文本倾向性分析方法)都是将文档仅仅看作是词或模式的集合,没有将这些词或模式按照语境或意群划分。这样,就导致了在对论证时引述对方观点的文档进行文本倾向性分析时会将引述部分作为作者的观点的问题,而被引述部分的观点恰恰是与作者的倾向性相反的观点。
本文设计并实现了一种基于浅层语义分析的文本倾向性识别方法。该方法在对待分析文档中的每个句子进行倾向性分析的过程中引入转折复句的识别,从而修正整个句子的倾向性值。在完成对句子分析的基础上,再对潜在的转折句群进行预测,进而对整个句群的倾向性值作出相应调整。以提高对整个评论文本的倾向性分析的正确性。通过真实语料测试之后,该方法表现出了较好的召回率和准确率。
暂无评论