版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:云南大学
学位级别:硕士
导师姓名:黄学彬;刘惟一
授予年度:2009年
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学]
主 题:文本相似度计算 贝叶斯理论 朴素贝叶斯分类 向量空间模型 局部搜索
摘 要:文本相似度计算研究的是通过计算机度量两份文档是否相似,相似度是多少的问题。随着互联网的不断发展,网络中的数据也呈爆炸式增长,但数据质量参差不齐,还有许多是直接复制或引用的。由于这些相同或高度相似的数据大量的存在,给普通用户使用搜索引擎带来了很大的阻碍。而对文本相似度计算的研究,则有利于提高搜索引擎返回结果的质量和准确度,提高用户体验。本文提出将朴素贝叶斯分类和向量空间模型结合起来处理搜索引擎返回结果的想法,并对此想法进行了验证。\n 本文着重讨论了文档相似度计算的相关问题,大致可以分为以下几个方面:\n (1)介绍互联网搜索的现状,说明搜索中存在的问题,讨论了文本相似度计算对搜索引擎返回结果的改善作用。\n (2)介绍了贝叶斯理论和朴素贝叶斯分类的概念,说明了朴素贝叶斯分类在自然语言文本分类方面的作用。并且举例说明了朴素贝叶斯分类的计算方法。\n (3)介绍了向量空间模型的概念,说明了向量空间模型在相似度计算方面的用途。也讨论了对于大规模数据,向量空间模型不太适用的方面,并提出了修改方案,介绍了怎样将向量空间模型应用到句子相似度的计算中。\n (4)提出了将朴素贝叶斯分类和向量空间模型结合起来应用到文本相似度计算中的想法,对此想法进行了理论论证,并将此想法通过算法实现。\n (5)对前面设计的算法套用了几个样本数据进行实验,证明了算法的有效性。