检索结果-内蒙古大学图书馆

中文信息学报 2006年第4期20卷 68-74页

作者：梁奇郑方徐明星吴文虎清华大学计算机科学与技术系智能技术与系统国家重点实验室语音技术中心北京100084

本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元... 详细信息

本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%。

关键词：计算机应用中文信息处理统计语言模型 trigram 自适应语体插值算法

来源：评论

学校读者我要写书评

暂无评论

统计语言模型中词的自动聚类技术研究

引用

计算机工程与应用 2003年第11期39卷 69-70,152页

作者：高升徐志明湛江海洋大学信息工程学院湛江524088 哈尔滨工业大学计算机科学与技术学院哈尔滨150001

为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大... 详细信息

为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。

关键词：统计语言模型聚类算法评价函数语义分类体系

来源：评论

学校读者我要写书评

暂无评论

基于混合语言模型的文档相似性计算模型

引用

中文信息学报 2006年第4期20卷 41-48页

作者：李晓光于戈王大玲东北大学信息科学与工程学院辽宁沈阳110004

为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响... 详细信息

为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。

关键词：人工智能自然语言处理文档相似性统计语言模型混合模型 EM算法

来源：评论

学校读者我要写书评

暂无评论

基于统计语言模型的双向词类标注方法

引用

计算机科学 2003年第9期30卷 59-60,168页

作者：刘启和詹思瑜杨国纬电子科技大学计算机学院成都610054

1引言在自然语言处理中,词类标注是一项重要的工作,它为句法分析、机器翻译、自然语言理解等提供语法知识.在进行自然语言的词类标注时,由于词的多词类现象,有许多词在不同的上下文中有不同的词类,汉语词类标注过程其实就是一个词类排... 详细信息

1引言在自然语言处理中,词类标注是一项重要的工作,它为句法分析、机器翻译、自然语言理解等提供语法知识.在进行自然语言的词类标注时,由于词的多词类现象,有许多词在不同的上下文中有不同的词类,汉语词类标注过程其实就是一个词类排歧过程[12].

关键词：自然语言处理统计语言模型双向词类标注方法知识库信息处理

来源：评论

学校读者我要写书评

暂无评论

基于语言模型的文本检索技术及检索结果重排序的研究

基于语言模型的文本检索技术及检索结果重排序的研究

引用

作者：胡晓光哈尔滨工业大学

学位级别：硕士

信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,... 详细信息

信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,对检索模型的研究和改进对于信息检索有着十分重要的意义。 2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术,如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式,而且没有深入到语言层面。为了利用语言知识进行检索,近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现,并与经典的VSM对比。在基于词义语言模型的信息检索研究中,介绍了同义词词典的词义表示方法,在实验中使用TREC语料把基于词义的语言模型并与其他语言模型进行了比较,实验表明,基于词义的语言模型方法要好于传统的TD-IDF方法,如果有更加精准的词义消歧工具,实验结果还会有进一步提高。在检索结果重排序部分,本文提出了将不同检索系统的结果相融合的方法,并采用线性插值的方法来对不同检索模型之间的检索结果进行融合实验。研究和实验显示,多模型融合能够更好地将各种影响信息检索的因素融合为一体,为中文信息检索提供更为强大的工具,为人们提供更好的信息服务。

关键词：信息检索检索模型统计语言模型多模型融合

来源：评论

学校读者我要写书评

暂无评论

统计语言模型在文本信息检索中的应用

引用

中国索引 2003年第1期1卷 32-35页

作者：王志勇耿亦兵第二军医大学图书馆

本文首先讨论了在信息检索系统中应用统计语言模型的可行性,介绍了统计语言模型的简史以及在IR领域的研究进展,对信息检索过程中的两个模型作了公式化描述并简单介绍了数据平滑技术。接下来,介绍了支持语言模型在信息检索研究的工具箱—... 详细信息

本文首先讨论了在信息检索系统中应用统计语言模型的可行性,介绍了统计语言模型的简史以及在IR领域的研究进展,对信息检索过程中的两个模型作了公式化描述并简单介绍了数据平滑技术。接下来,介绍了支持语言模型在信息检索研究的工具箱——Lemur工具箱,并介绍了使用Lemur工具箱进行实验的方法、步骤,最后给出结论。

关键词：统计语言模型信息检索 Lemur

来源：评论

学校读者我要写书评

暂无评论

基于SLM的二叉树在语音停顿预测中的应用

引用

计算机工程 2006年第19期32卷 23-25,28页

作者：钱揖丽荀恩东宋柔北京工业大学计算机学院北京语言大学信息科学学院北京100083

讨论基于统计语言模型SLM(Statistic Language Model)的二叉树在语音停顿预测中的应用。基于大规模语料,利用三元模型Trigram,建立统计语言模型;基于SLM为待处理句子生成相应的二叉树;将生成的二叉树所包含的信息,从不同角度应用于语音... 详细信息

讨论基于统计语言模型SLM(Statistic Language Model)的二叉树在语音停顿预测中的应用。基于大规模语料,利用三元模型Trigram,建立统计语言模型;基于SLM为待处理句子生成相应的二叉树;将生成的二叉树所包含的信息,从不同角度应用于语音停顿的预测。实验结果表明,基于SLM生成的二叉树能够较好地为语音停顿的预测做出贡献。

关键词：统计语言模型二叉树语音停顿预测

来源：评论

学校读者我要写书评

暂无评论

基于两阶段语言模型的特定实体搜索

基于两阶段语言模型的特定实体搜索

引用

作者：李胜平上海交通大学

学位级别：硕士

传统的通用Web搜索模型检索的是与查询相关的所有领域的信息，并且只能以网页的形式作为返回结果进行展示。从某种意义上说，用户对返回的成千上万个网页并没有任何兴趣，用户真正需要的信息是包含在网页中的能回答用户输入的搜索关键... 详细信息

传统的通用Web搜索模型检索的是与查询相关的所有领域的信息，并且只能以网页的形式作为返回结果进行展示。从某种意义上说，用户对返回的成千上万个网页并没有任何兴趣，用户真正需要的信息是包含在网页中的能回答用户输入的搜索关键字的“答案”，例如与搜索关键字相关的特定实体，图片，多媒体文件或者用文本表示的一段描述。使用现在的通用搜索引擎，用户常常要在被这些搜索引擎返回的页面中手工过滤才能找到他们所需要的“答案”或描述。\n 本文研究了如何构建一种有别于传统的通用Web搜索模型的实体检索模型，使之能够对指定的领域下的特定实体进行有效的搜索，并直接返回同样排好序的实体信息，而不是返回大量的网页。本文提出的特定实体检索模型有如下特点：首先，特定实体检索模型能过滤那些与查询相关但不涉及该特定实体的网页，从而使信息源限定在特定的领域范围内。其次，特定实体检索模型返回的是直接的实体信息，这些信息原本隐藏在通用搜索引擎返回的网页中。第三，特定实体检索模型能从Web信息中自动挖掘出每个特定实体间的区别，并按照查询关键字对实体的产生式概率对返回结果进行排序。\n 为了搜索特定实体，我们的模型主要从Web信息中挖掘并估计一些特性：例如，实体的相关度,实体的权威度,实体-查询的关联度以及文档的先验概率。实体的相关度主要衡量该实体是否与用户的查询关键字相关，实体的权威度主要衡量在所有相关实体的集合中该实体是否比其他实体权威，实体-查询的关联度体现了在某个具体文档中实体和查询关键字在概率上相关的程度，文档的先验概率则体现了文档本身的特性对实体检索的影响。本文使用统计语言模型来估计实体的相关度，并同样使用统计语言模型来估计实体的权威度。本文还根据概率论的理论构建了一种评分函数来融合对实体的相关度和实体的权威度等特性的估计，评分函数将输出一个排好序的实体列表返回给用户以响应用户的查询。

关键词：实体搜索信息检索统计语言模型 web挖掘 web搜索

来源：评论

学校读者我要写书评

暂无评论

应用二叉树剪枝识别韵律短语边界

引用

中文信息学报 2006年第3期20卷 1-5,28页

作者：荀恩东钱揖丽郭庆宋柔北京语言大学语言信息处理研究所北京100083 富士通研究开发中心北京100016

句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应... 详细信息

句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。

关键词：人工智能自然语言处理统计语言模型二叉树韵律短语最大熵

来源：评论

学校读者我要写书评

暂无评论

基于类的统计语言模型的研究

基于类的统计语言模型的研究

引用

作者：曹桂宏天津大学

学位级别：硕士

在该文中,作者和项目组的其他成员提出了一种非对称的聚类算法,该算法相对于传统的对称聚类算法拥有效率高,性能好等优点.利用该算法的聚类结果生成的聚类语言模型的性能要好于传统的聚类语言模型.该文第一章是引言,主要介绍该文中使用... 详细信息

在该文中,作者和项目组的其他成员提出了一种非对称的聚类算法,该算法相对于传统的对称聚类算法拥有效率高,性能好等优点.利用该算法的聚类结果生成的聚类语言模型的性能要好于传统的聚类语言模型.该文第一章是引言,主要介绍该文中使用到一些基础理论知识,包括概率统计理论基础和信息论的初步知识.第二章介绍统计语言模型,包括传统的n-gram模型,参数平滑算法和语言模型性能的评价.第三章是该文的重点之一,详细介绍了传统的对称聚类模型,我们提出的非对称聚类模型以及软聚类模型.并且用实验结果评价了对称聚类模型和非对称聚类模型.第四章中介绍了基于类的语言模型.包括预测聚类语言模型、条件聚类语言模型、综合聚类语言模型以及这三种模型的母体—基本聚类语言模型.在此基础上我们还介绍了更加一般的软聚类语言模型,并且探讨了软聚类语言模型和硬聚类语言模型的关系.第五章是实验.包括实验设置和实验结果的分析.在这一部分里,我们用充分翔实的实验数据证明了聚类语言模型的性能要优于传统的非聚类语言模型,而且非对称聚类模型要优于对称聚类模型.第六章总结全文,并且提出了将来的研究方向.

关键词：统计语言模型 n-gram模型语言建模聚类语言模型

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：