随着互联网上信息成指数级的增长,信息爆炸已经成为一个很严峻的问题。通过文摘可以减小信息量,但是如果对大量的文本信息做文摘,人工进行的这些专家文摘所消耗的时间是不可估算的。基于此,机器自动文摘就成为一个非常重要的研究课题。
自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。自动文摘也是一项极具难度和挑战性的工作,人类已经对此进行了几十年的探索。限于相关领域的已有水平,现阶段的自动文摘系统还不能进行完全的自动语法、语义和语境分析,摘要结果还属于指示性摘要的范畴。
本文在目前自动文摘的研究现状下,运用统计学的方法,利用HowNet频率统计进行概念统计的文本摘要的研究。研究工作主要包括以下几个方面:
① 提出基于HowNet获得词语概念的方法。
② 用概念频率统计代替传统的词形频率统计,来建立概念向量空间模型;通过计算句子重要度和减少句子冗余度,得到文本摘要。
③ 开发了一个基于概念向量空间模型的中文自动文摘系统。
对基于概念获取的自动文摘系统,运用内部和外部评测手段进行了系统评估。并与基于词频统计的机械式自动文摘系统进行了比较,试验结果证明本系统多个性能指标优于基于词频统计的机械式文摘系统。
Internet已经发展成为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。网络上的文档资源呈现爆炸式的增长,这些文档内容繁杂,信息数据量大而且处于不断变化之中。这些资源与数据库中结构化的信息相比,非结构化或半结构化的web文档信息更加丰富和繁杂。大量的网络信息均以文本形式体现,传统的数据分析技术已经远不能满足现实需要,它迫切的需要一种技术,能快速智能的将需要处理的数据转化为有用的信息和知识,达到为决策服务的目的。\n 文本聚类技术可以将大量文本信息组成少数有意义的簇,从而达到协助人们能够更好地对大规模文本进行理解。文本聚类技术的目的是得到一些文本簇,使得各个文本簇的内部相似性是最大的,同时具有最小的簇间相似性。目前,非常多的领域已经应用到了聚类技术,比如生物与医学领域、金融领域、电信领域、工业生产领域等。但是,聚类分析是一门非常复杂的分析技术,在应用过程中,我们需要根据其各自的要求来区别对待,如高维度,可扩展性,高准确度等。\n 本文的聚类方法主要包括文本表示模型和文本聚类算法。本文的语料库来源于搜狗实验室(隶属于搜狐研发中心),在文本表示模型中主要用到了中文分词,HowNet语义分析等,在文本聚类算法主要对基于划分的K-means算法,基于密度的DBSCAN算法,基于层次的AGNES算法,基于网格的CLIQUE算法以及基于模型的L D A算法进行了研究实现,并根据实验结果,对这几种算法在多个层面上做了比较和分析比对。
暂无评论