检索结果-内蒙古大学图书馆

计算机科学 2016年第2期43卷 51-56页

作者：钱揖丽蔡滢滢山西大学计算机与信息技术学院太原030006 山西大学计算智能与中文信息处理教育部重点实验室太原030006

针对人工标注韵律结构获取大规模语料的困难和问题,利用标点符号能够表示停顿的性质,提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。对标点符号划分等级,并在利用其模拟韵律边界时对其赋予不同的权重。基于... 详细信息

针对人工标注韵律结构获取大规模语料的困难和问题,利用标点符号能够表示停顿的性质,提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。对标点符号划分等级,并在利用其模拟韵律边界时对其赋予不同的权重。基于无标注语料构建最大熵模型,并采取Top-K方法实现句子韵律短语边界的自动预测。通过计算相邻语法词词性间的互信息对句子进行"粘连"处理,生成"粘连"单元,并对出现在其内部的韵律边界进行剔除,实现韵律短语的自动识别。实验结果表明,获取无标注语料时对标点进行分级利用及采用"粘连"剔除策略能够明显提升模型性能,该方法能够获得较好的识别效果。

关键词：无标注语料韵律短语边界最大熵(ME) 互信息

来源：评论

学校读者我要写书评

暂无评论

采用无标注语料及词“粘连”剔除策略的韵律短语预测

采用无标注语料及词“粘连”剔除策略的韵律短语预测

引用

作者：蔡滢滢山西大学

学位级别：硕士

科技在进步,时代在发展。在这个"读图"和"听音"的时代,语音技术已不再陌生,让机器开口"说话"也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的语音自然度低、节奏感差。因... 详细信息

科技在进步,时代在发展。在这个"读图"和"听音"的时代,语音技术已不再陌生,让机器开口"说话"也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的语音自然度低、节奏感差。因此,提升语音合成的流畅度是当前亟待解决的问题。在语音合成技术的文本信息处理中,韵律短语的划分对语音合成的流畅度有着至关重要的影响。目前韵律结构预测方面的研究绝大多数采用人工标注韵律结构的语料,即人工标注语料,这种语料通常篇幅较小,若想扩大其规模又会受到诸多限制。因此,本文工作主要针对当前获取大规模的人工标注语料所面临的困难和问题而展开,研究采用无标注语料进行韵律结构预测的方法。利用标点符号能表示停顿的性质,本文提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。本文工作可分为下列几个方面:(1)标点符号的等级划分与无标注语料的获取基于用标点符号模拟韵律标志的思想,利用标点符号能表示停顿且停顿时间长短不同、差异较大的性质,本文提出应该将标点符号划分为不同的等级区别对待,并赋予每一等级不同的权重。通过反复试验,我们获取了标点符号的最佳等级划分方法及各级的最优参数分配》之后,基于多级标点符号获得大规模的无人工标注韵律标志的语料,即无标注语料。(2)基于互信息的语法词"粘连"互信息在自然语言处理中被描述为衡量两个类或词之间相关程度的尺度。本文基于大规模无标注语料库(仅做了自动分词和词性标注处理),利用互信息对任意两个词性标记的邻接情况进行了统计和度量,并据此将联系较为紧密的语法词对“粘连"起来,形成"粘连单元"。本文认为"粘连单元"内的语法词结合相对紧密,其中出现韵律短语边界的可能性较小,应忽略不计。(3)基于最大熵模型及词"粘连"剔除策略的韵律短语自动识别首先,基于大规模的无标注语料构建用于韵律短语自动预测的最大熵模型;通过对人工标注语料的分析和统计,为基于句长的Top-K方法确定参数K的取值。其次,对待识别语料进行子句分割,利用构建的最大熵模型,结合Top-K方法,实现了韵律短语的初步预测。最后,基于"粘连"词性对集和"粘连"算法,对待识别语料进行"粘连"处理和标注,并依据标注结果,对韵律短语初始预测结果进行噪声剔除,获得最终的韵律短语识别结果。

关键词：语音合成无标注语料韵律短语最大熵互信息

来源：评论

学校读者我要写书评

暂无评论

结合五笔字形与上下文相关字向量的命名实体识别

引用

计算机工程 2021年第3期47卷 94-101页

作者：张栋王铭涛陈文亮苏州大学计算机科学与技术学院江苏苏州215006

命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,... 详细信息

命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。

关键词：语言模型命名实体识别五笔字形上下文相关字向量无标注语料

来源：评论

学校读者我要写书评

暂无评论

采用无标注语料的动词和形容词主观性评级

引用

软件学报 2013年第5期24卷 1036-1050页

作者：徐戈蒙新泛王厚峰北京大学计算语言学研究所北京100871 计算语言学教育部重点实验室(北京大学) 北京100871 闽江学院计算机科学系福建福州350108

为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主... 详细信息

为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主观性词表构建中,提出使用主体线索和汉字主观性.5个标注人员对随机选择的500个单词进行主观性标注,据此构建主客观标准集,并将其用于各种设置下的实验结果评估.实验结果显示,当被标注的单词出现频率较高时,所提出的方法能够超过或者匹配人工标注.此外,尽管文中只使用了无标注的数据,但还有更多的先验知识(如语义词典等)可以被引入到该方法中.

关键词：主观性无标注语料级差线索主体线索评级汉字主观性

来源：评论

学校读者我要写书评

暂无评论

基于预训练语言模型的中文命名实体识别

基于预训练语言模型的中文命名实体识别

引用

作者：张栋苏州大学

学位级别：硕士

中文命名实体识别任务一般都被看作序列标注问题,目前常用的解决方案是基于神经网络的深度学习方法。字向量的初始化对于基于神经网络的中文命名实体识别模型的性能影响较大。传统的字向量通常在大规模无标注语料上采用预训练方式得到... 详细信息

中文命名实体识别任务一般都被看作序列标注问题,目前常用的解决方案是基于神经网络的深度学习方法。字向量的初始化对于基于神经网络的中文命名实体识别模型的性能影响较大。传统的字向量通常在大规模无标注语料上采用预训练方式得到。但在使用时,这种字向量是静态的,无法体现一字多义的情况。这种静态字向量对语义的表征是受限的。本文旨在研究大规模无标注数据下的预训练方法,通过结合中文字形和预训练语言模型增强字向量表示能力,提高中文命名实体识别的性能。本文主要内容如下:(1)基于字预训练语言模型的中文命名实体识别有监督学习的训练数据通常由人工标注获得,由于耗时耗力,很难得到大规模标注数据。为了解决中文命名实体识别任务中缺乏大规模标注语料而造成的数据稀缺问题,以及常见静态字向量不能解决一字多义的问题,本文使用在大规模无标注语料上预训练语言模型生成的上下文相关字向量来改进中文命名实体识别模型性能。在多个中文命名实体识别数据集上进行实验。实验结果表明,上下文相关字向量可以很好地提升命名实体识别模型性能,平均F1值提升了 3.91%。同时,对识别结果分析,发现新系统在OOV实体(未出现在训练集中的实体)识别上可以取得很好的效果,并且对一些特殊类型的中文实体识别也有良好的表现。(2)基于五笔预训练语言模型的中文命名实体识别在大规模无标注语料中预训练的字语言模型在中文命名实体识别任务中取得不错的性能。然而,中文预训练语言模型通常仅对上下文中的字符建模,忽略中文字符的结构信息——字形。为此,本文提出了两种基于五笔字形预训练语言模型的上下文相关字向量表示方法,以增强字向量的语义表达能力。两种建模方式分别是直接对字符和字形抽取特征联合建模得到字符向量表示,以及单独对字形和字符建模再结合的向量表示。实验结果表明,本文所提方法可以显著提升中文命名实体识别系统的性能。另外本文还尝试在词-字LSTM模型中增加结合五笔字形的上下文相关字向量,系统性能得到进一步提高,优于仅基于字符的语言模型。

关键词：命名实体识别语言模型五笔字形无标注语料

来源：评论

学校读者我要写书评

暂无评论

基于统计学习的词义消歧关键技术研究

基于统计学习的词义消歧关键技术研究

引用

作者：周云国防科学技术大学

学位级别：博士

自然语言的歧义性,是计算机处理和理解文本的重大难题之一。语言的各个层面都存在歧义性,包括语音、词法、句法、语义和语用等。本文重点关注词法层面歧义的处理,即自动词义消歧。自动词义消歧,即在特定的上下文中为单词选择合适的词义... 详细信息

自然语言的歧义性,是计算机处理和理解文本的重大难题之一。语言的各个层面都存在歧义性,包括语音、词法、句法、语义和语用等。本文重点关注词法层面歧义的处理,即自动词义消歧。自动词义消歧,即在特定的上下文中为单词选择合适的词义,是自然语言处理中最为基础的核心技术之一。对机器翻译、信息检索、语义分析等领域起着十分重要的支撑作用。随着九十年代机器学习技术的快速发展,有监督机器学习算法在词义消歧中取得了优势。然而,在目前的词义消歧研究中,大多只是逐个地对出现的每个多义词进行消歧,而且没有考虑相邻多义词消歧结果之间的相关性,以及对整个句子的多义词消歧结果的全局优化。本文以全局优化为着眼点,重点考察结构化机器学习方法在词义消歧的应用,并将句法结构与机器学习方法的图结构有机的结合,进一步提高词义消歧的性能。此外,标注数据匮乏一直是困扰词义消歧的问题。对多义词进行人工标注是一个非常耗费人力的过程,目前没有任何一种语言具有充分多的词义标注语料。相反,无标注语料却是大量存在的,尤其互联网上存在海量的无标注文本。如何利用这些唾手可得的无标注语料来增强词义消歧的性能,是一个受到广泛关注的方向。本文考察了话题特征和自举在词义消歧的应用。本文具体研究内容如下：(1)采用隐马尔可夫模型对全文消歧进行精确建模,引入一步上下文依赖关系,并进一步扩展为最大熵马尔可夫模型,以集成非独立的语言学特征。全文消歧是对给定文本中全部开放词(包括名词、动词、形容词和副词)进行消歧,它的一个突出特点就是各个多义词的消歧结果是相关的。据我们所知,目前的方法很少考虑到这一特点,而将每个多义词单独进行消歧。本文则充分利用这一特点,首先,用隐马尔可夫模型对全文消歧进行建模,将全文消歧转化为一个线性序列标注问题。然后,针对隐马尔可夫模型只能利用较为单一观察值的缺点,本文将其扩展为最大熵马尔可夫模型,将大量的上下文特征集成到模型中。再次,由于全词消歧包含大量状态,在隐马尔可夫模型和最大熵马尔可夫模型中均存在数据稀疏和高时间复杂度的问题,本文设计了柱状搜索Viterbi算法和平滑策略来解决。最后,在Senseval-2和Senseval-2004的英语全文消歧数据集上进行了评测,本文提出的基于最大熵马尔可夫模型的消歧方法与国际上权威评测Senseval中最好的结果相当。(2)利用条件随机域消除“消歧标记偏置”,用近似训练、并行化等手段解决模型复杂度过高的问题,并用依存句法树扩展模型的图结构。对于全文消歧而言,由于最大熵马尔可夫模型需要对逐个隐状态进行局部归一化,导致了“消歧标记偏置”问题。为了进一步提升消歧系统的性能,本文采用了条件随机域模型,它使用全局归一化来解决标记偏置问题。而条件随机域的时间复杂度很高,在单机上无法解决像全文消歧这样的大状态问题。本文通过近似训练、并行化等方法将条件随机域的训练时间复杂度由0(mLTN2)降为O(mLTR2),其中N为状态数,约为几万到十几万,R为一个词的最大可能词义数,约为数十；通过柱状搜索将条件随机域的解码时间复杂度由O(TN2)降为O(TR2)。本文在Senseval-2004英语全文消歧任务上对条件随机域进行实验,召回率(词义消歧的评测指标见3.6.2节)为0.657,高于该评测中的最好成绩。另外,为了在消歧过程中更好的利用句法树信息,本文将条件随机域的图结构由线性改为树状,使用树状条件随机域进行消歧。本文在Senseval-2004英语全文消歧任务上对树状条件随机域进行实验,召回率为0.668,说明加入句法信息能够提高词义消歧的性能。(3)利用话题特征提高词义消歧的性能。由于现有词义消歧的上下文信息较少,以及人工标注训练集规模不足,导致了严重的数据稀疏。话题模型作为一种无监督学习方法,试图对信息进行聚类和压缩,反映某种语义信息并提高词的泛化性。本文提出了一种融合话题特征的消歧方法,从无标注语料库推导出潜在狄利克莱话题特征,并用这些话题特征来提升词义消歧分类器的性能。该方法在Senseval-2004英语全文消歧任务上的召回率为0.68,超过了已知文献中的最好结果0.67。实验结果还显示：适当的话题数有助于消歧；背景语料库的性质对消歧性能有直接影响；规模大、平衡的背景语料库对消歧性能的提升较大。(4)采用自举的方法,结合标注语料和无标注语料来提高消歧系统的性能。人工标注语料的匮乏,和无标注语料的大量存在,促使我们考虑利用无标注语料来增强消歧系统的性能。该算法的基本思想是,用人工标注语料生成初始分类器,用这些初始分类器对无标注语料进行自动标注,然后从这些自动标注的语料中选取若干标注置信度较高的样本加入训练语料,使训练语料的规模增大。如此循环往复,期望通过训练语料规模的增大来改进分类器的性能。本文在Senseval-2004汉语采样词消歧任务上,系统的

关键词：词义消歧统计学习结构化机器学习无标注语料

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：