检索结果-内蒙古大学图书馆

计算机应用 2024年

作者：余婧陈艳平扈应黄瑞章秦永彬贵州大学文本计算与认知智能教育部工程研究中心公共大数据国家重点实验室(贵州大学) 贵州大学计算机科学与技术学院

针对序列标注模型在命名实体识别任务中出现识别的实体边界与真实的实体边界之间存在位置偏差的问题，提出了一种结合实体边界偏移的序列标注优化方法。首先，该方法引入边界偏移量的概念来量化每个词与实体边界之间的位置关系，计算每... 详细信息

针对序列标注模型在命名实体识别任务中出现识别的实体边界与真实的实体边界之间存在位置偏差的问题，提出了一种结合实体边界偏移的序列标注优化方法。首先，该方法引入边界偏移量的概念来量化每个词与实体边界之间的位置关系，计算每个词与最近实体边界的相对偏移量，并利用这些偏移量生成实体边界的候选跨度。随后，利用交并比作为筛选标准，过滤低质量的候选跨度，保留最有可能代表实体边界的候选跨度。最后，通过边界调整模块，根据候选跨度更新标签序列中实体边界的位置，从而优化整个标签序列的实体边界，提升实体识别的性能。所提方法在数据集CLUENER2020、Resume-zh和MSRA上的F1值分别达到了80.48%、96.42%和94.80%，验证了该方法对命名实体识别任务的有效性。

关键词：命名实体识别序列标注边界偏移交并比边界调整

来源：评论

学校读者我要写书评

暂无评论

基于分层序列标注的实体关系联合抽取方法

引用

北京大学学报（自然科学版） 2021年第1期57卷 53-60页

作者：田佳来吕学强游新冬肖刚韩君妹北京信息科技大学网络文化与数字传播北京市重点实验室北京100101 复杂系统仿真总体重点实验室军事科学院系统工程研究院北京100101

为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题。实验证明,HSL模型能有效地解决三元... 详细信息

为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题。实验证明,HSL模型能有效地解决三元组重叠问题,在军事语料数据集上F1值达到80.84%,在公开的WebNLG数据集上F1值达到86.4%,均超过目前主流的三元组抽取模型,提升了三元组抽取的效果。

关键词：实体关系联合抽取三元组重叠序列标注知识图谱 HSL

来源：评论

学校读者我要写书评

暂无评论

基于增强序列标注策略的单阶段联合实体关系抽取方法

引用

计算机科学 2023年第8期50卷 184-192页

作者：朱秀宝周刚陈静卢记仓向怡馨数学工程与先进计算国家重点实验室郑州450001

从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一... 详细信息

从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×10^(6)~5.4×10^(6),平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。

关键词：联合实体关系抽取序列标注组合标签相关矩阵

来源：评论

学校读者我要写书评

暂无评论

一种基于序列标注的概念短语抽取方法

引用

图书情报工作 2022年第11期66卷 121-128页

作者：李雪思张智雄刘欢中国科学院文献情报中心北京100190 中国科学院大学经济与管理学院图书情报与档案管理系北京100190 科技大数据湖北省重点实验室武汉430072

[目的/意义]科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程]通过分析概念定义句的结构、句式等模式特征,提出以... 详细信息

[目的/意义]科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程]通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论]结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。

关键词：序列标注概念定义句概念短语自动抽取

来源：评论

学校读者我要写书评

暂无评论

ERNIE和序列标注结合的中文文本检错纠错

引用

天津理工大学学报 2025年第1期41卷 83-89页

作者：左壮壮王法玉陈洪涛天津理工大学计算机科学与工程学院天津300384

针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局... 详细信息

针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型中,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。

关键词：中文文本检错纠错基于知识增强的自然语言表示模型序列标注双向长短期记忆网络条件随机场多策略纠错

来源：评论

学校读者我要写书评

暂无评论

基于多级语义信息融合编码的序列标注方法

引用

计算机工程与科学 2022年第12期44卷 2266-2272页

作者：蔡雨岐郭卫斌华东理工大学信息科学与工程学院上海200237

序列标注是自然语言处理领域的基本任务。目前大多数序列标注方法采用循环神经网络及其变体直接提取序列中的上下文语义信息,尽管有效地捕捉到了词之间的连续依赖关系并取得了不错的性能,但捕获序列中离散依赖关系的能力不足,同时也忽... 详细信息

序列标注是自然语言处理领域的基本任务。目前大多数序列标注方法采用循环神经网络及其变体直接提取序列中的上下文语义信息,尽管有效地捕捉到了词之间的连续依赖关系并取得了不错的性能,但捕获序列中离散依赖关系的能力不足,同时也忽略了词与标签之间的联系。因此,提出了一种多级语义信息融合编码方式,首先,通过双向长短期记忆网络提取序列上下文语义信息;然后,利用注意力机制将标签语义信息添加到上下文语义信息中,得到融合标签语义信息的上下文语义信息;接着,引入自注意力机制捕捉序列中的离散依赖关系,得到含有离散依赖关系的上下文语义信息;最后,使用融合机制将3种语义信息融合,得到一种全新的语义信息。实验结果表明,相比于采用循环神经网络或其变体对序列直接编码的方式,多级语义信息融合编码方式能明显提升模型性能。

关键词：序列标注多级语义信息融合编码标签语义信息注意力机制融合机制

来源：评论

学校读者我要写书评

暂无评论

面向序列标注的文本数据分布一致性检测方法研究

面向序列标注的文本数据分布一致性检测方法研究

引用

作者：杨帆山西大学

学位级别：硕士

近年来,机器学习技术在自然语言处理和计算机视觉等领域展现了出色的能力,然而,大部分现有的机器学习模型都基于独立同分布的假设开发,即模型的训练和测试数据均来自同一分布,在真实场景中部署时模型往往会遇到与训练数据不同分布的数据... 详细信息

近年来,机器学习技术在自然语言处理和计算机视觉等领域展现了出色的能力,然而,大部分现有的机器学习模型都基于独立同分布的假设开发,即模型的训练和测试数据均来自同一分布,在真实场景中部署时模型往往会遇到与训练数据不同分布的数据,即分布外(Out-Of-Distribution,OOD)数据,这可能导致模型产生错误或不可靠的预测。因此,识别OOD数据,即进行数据分布一致性检测,对于机器学习的发展和人工智能的安全至关重要。目前数据分布一致性检测的相关研究主要集中在计算机视觉的图像分类任务上,然而,随着网络空间里各行各业的文本数据日益增长,模型在实际场景中遇到的OOD数据也越来越多,数据分布一致性检测能够识别出帮助自然语言处理模型准确的处理文本数据,提高模型在实际应用中的安全性。文本分类和文本序列标注是自然语言处理中的常见任务,文本分类任务的数据分布一致性检测研究已有一定基础,但面向序列标注任务的相关研究较少,并且缺少对序列标注任务下文本数据分布不一致的通用的定义。本文对序列标注任务的文本数据分布一致性检测展开深入研究,将序列标注任务中文本数据分布不一致的场景定义为由背景偏移或语义偏移两种情况引起的数据分布不一致,提出了一种基于预测序列置信度得分的数据分布一致性检测方法,并构建相应的数据集在通用的序列标注模型上进行数据分布一致性检测。本文采用三个公开数据集构造相应的背景偏移数据集和语义偏移数据集,在两个通用的序列标注模型(BiLSTM-CRF模型和BERT-BiLSTM-CRF模型)上对所提出的方法分别进行了实验验证,并使用数据分布一致性检测常用的两种评价指标进行性能评估。实验结果表明,本文所提出的方法在背景偏移数据集上的平均AUROC和AUPR超过90%,在语义偏移数据集上的平均AUROC和AUPR超过80%,且在预训练BERT-BiLSTM-CRF模型上表现更好,最高可达99%,实验结果验证了本文方法的有效性和通用性。本文的方法将文本序列的标注与数据分布一致性的检测统一到一个深度学习模型框架下,有效降低了检测成本,为未来文本数据分布一致性检测的研究方向提供了新的思路,这些工作有助于提高自然语言处理模型的安全性和可靠性,对推动软件安全以及网络空间安全的健康发展具有重要的实践意义。

关键词：自然语言处理序列标注分布一致性检测深度学习

来源：评论

学校读者我要写书评

暂无评论

基于ERNIE序列标注的地址分级模型应用

引用

邮电设计技术 2023年第2期 89-92页

作者：刘贤松屠梓浩高有利中国联通网络AI中心上海200050

提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的... 详细信息

提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的前5级地址进行补全或纠正,再通过正则化匹配对地址后4级进行纠正。提出的模型不仅可以提高地址解析的准确率,还可以对错误地址进行纠正,最后将模型用于真实数据集,验证了方法的有效性。

关键词：地址分级地址提取序列标注 ERNIE算法

来源：评论

学校读者我要写书评

暂无评论

基于多任务协作学习的文本序列标注研究

基于多任务协作学习的文本序列标注研究

引用

作者：王鹏中原工学院

学位级别：硕士

文本序列标注是自然语言处理领域的一个重要研究方向,它的主要目的是为文本中的每个单词或词组打上标签,以便更深入地理解文本的含义。它为机器翻译、知识图谱和问答系统等任务的构建提供了基础。为了解决传统单任务学习模式的浪费资源... 详细信息

文本序列标注是自然语言处理领域的一个重要研究方向,它的主要目的是为文本中的每个单词或词组打上标签,以便更深入地理解文本的含义。它为机器翻译、知识图谱和问答系统等任务的构建提供了基础。为了解决传统单任务学习模式的浪费资源、忽略任务间关系、通用性受限等问题,基于多任务的文本序列标注研究已经成为当前研究的主要方向。目前多任务文本序列标注的研究主要存在以下两个难点:1.多任务学习的特征表示问题;2.多任务学习的任务间关系协作问题。本文以多任务学习作为研究重点,主要解决多任务序列标注当前所面临的两个难点问题。在多任务的表示学习阶段,充分挖掘并利用任务间隐含的关系信息,并结构化表示从而增强最终的特征表示是我们的目标。之后,通过发掘任务与任务间的协作关系,并通过完善任务与任务间的协作机制最终提高模型的整体效果。针对以上两个难点问题,本文以多任务文本特征表示和多任务任务间关系获取为切入点,主要研究内容如下:1.针对文本特征表示的研究。利用多任务学习挖掘并利用文本间的关系信息,通过利用不同文本间的潜层表示信息来解决文本特征信息获取不充分的问题。但当前的研究缺少对文本序列潜层语义关系信息的充分利用,忽略了序列与序列之间的关系特征。因此,为了提高模型对文本的理解能力,并充分获取文本间的潜层关系信息,本文提出了一种基于关系注意力的潜层关系增强模型。该模型利用结构化对齐的方式,获取保持文本序列中的语义信息结构,并对文本间所蕴含的语义关系进行建模,提高模型对文本词汇间关系信息的捕获能力。最终,该模型在多个公开数据集上取得了很好的效果。2.针对任务间关系获取的研究。在多任务学习中,不同任务之间存在着某种关系,比如:词性标注和命名实体识别,词性信息可以更好地帮助识别实体的边界,反过来,实体标注信息也能更好的促进词性识别的准确性。当前多任务间的关系获取主要通过任务与任务之间的共享来实现,其中硬共享是当前使用最普遍的方法。但当前的共享机制都存在着任务间关系获取不充分以及缺少对任务间关系信息的过滤等问题。为此,本文提出了一种任务间协作的多任务序列标注模型。该模型通过对任务间的抽象关系进行建模,从而捕获多任务之间的关系信息。同时为了减少任务间的相互抑制以及共享信息的杂乱问题,采用对抗训练的方式保留对模型有用的信息,以及对共享信息进行过滤。最终将任务的特征表示和任务间的关系信息进行融合,从而提高模型的抽取能力。综上,本文提出的基于文本表示和任务间关系的多任务文本序列标注模型在序列标注任务上取得了一定的效果,并在多个公开数据集上进行了充分的实验,验证了模型的有效。

关键词：多任务学习序列标注表示学习任务间关系

来源：评论

学校读者我要写书评

暂无评论

零样本跨语言序列标注关键技术研究

零样本跨语言序列标注关键技术研究

引用

作者：梁世宁吉林大学

学位级别：博士

随着从经济全球化到文化全球化的发展,人们希望可以随时随地获取世界各地的信息以促进生产生活。在全球化交流中,文字是人类记录和表达信息的首要形式,信息交融的过程必然会受到文字语言的影响。因此,如何有效地处理多语言文字信息是学... 详细信息

随着从经济全球化到文化全球化的发展,人们希望可以随时随地获取世界各地的信息以促进生产生活。在全球化交流中,文字是人类记录和表达信息的首要形式,信息交融的过程必然会受到文字语言的影响。因此,如何有效地处理多语言文字信息是学术界和工业界当前面临的重要问题。近年来,深度学习技术深刻地影响了自然语言处理的发展进程和研究方式。基于深度学习的方法通常需要大规模的参数和数据来获得良好的性能,而这在多语言场景中是受限的。对于多语言自然语言处理任务,首先,低资源语言训练数据通常是稀缺的,其次,为每种语言维护多个模型显著增加了研究和应用的复杂度。因此,跨语言自然语言处理应运而生,其核心思想是通过模型和数据,将知识从源语言(高资源)迁移到目标语言(低资源),从而解决数据缺失、系统复杂和目标语言性能等问题。序列标注作为自然语言处理的基础任务和重要内容,旨在从非结构化文本数据中提取特定信息,是众多下游任务的关键前提,在跨语言自然语言处理中也有着同样的价值。本文以跨语言序列标注为研究内容,围绕零样本学习对现有方法总结归纳,针对存在的问题提出了相应的解决方案,具体研究工作如下:1.基于强化学习和知识蒸馏的跨语言命名实体识别。深度神经网络模型已被广泛用于序列标注任务,然而大部分方法仅适用于少数高资源语言。实际上,世界上大多数语言的序列标注有标签数据有限,甚至仅有无标签数据。面对这个挑战,跨语言序列标注早期依赖于源语言训练数据和翻译数据。为了利用在真实场景中相对容易收集的目标语言无标签数据,现有研究提出了一种基于半监督知识蒸馏的方法,通过目标语言无标签数据将知识从教师模型迁移到学生模型,缺点是学生模型模仿了教师模型所有的预测行为。针对以上缺点,从数据角度,本文提出了一种用于跨语言命名实体识别的基于强化学习和半监督学习的知识蒸馏方法。该知识蒸馏过程可以多轮迭代,并基于强化学习自适应地选择蒸馏中使用的无标签数据。实验结果表明,本文提出的方法可以针对不同语言模型的不同迭代动态地选择蒸馏样本,实现对目标语言大规模无标签数据的高效利用,性能显著优于基线方法,达到甚至高于多源语言知识蒸馏方法的水平。2.基于标签语义和对比学习的跨语言口语理解。预训练多语言模型虽然在零样本跨语言任务上展示了良好的性能,但各语言之间的表示对齐并不完善,导致部分目标语言上的模型迁移性能不理想。考虑到利用翻译数据微调模型会受到机器翻译的错误和可用性的影响,现有研究提出了一种仅依赖双语词典对源语言训练数据进行多语言语码转换的方法,通过构建下游任务的混合语言数据对齐多语言模型的表示。该方法局限于仅基于数据增强隐式地进行表示对齐,忽略了语义信息。针对以上问题,从模型角度,本文提出了一种用于跨语言口语理解的标签感知的自监督多层级对比学习方法。首先,本文利用槽类型集合,在标签感知模型中实现以其为锚点的跨语言知识迁移。其次,为了充分利用口语理解内在的语义层次,即话语-槽-词结构,本文提出了一个多层级对比学习框架。在上述三个层级,分别显式构建了“源语言话语-语码转换话语”、“源语言槽值-语码转换槽值”和“词的槽标签-槽值的词”的对比学习范式。实验结果表明,本文提出的方法在零样本跨语言口语理解中通过标签语义信息构建了不同层级上的对比学习,从语义角度优化了跨语言表示,与多语言动态语码转换方法相比,显著提高了性能。3.基于预训练和校准网络的跨语言序列标注。在跨语言分类任务上,现有工作的目标语言零样本迁移与源语言或目标语言监督训练之间的性能差距是可以接受的。但是,在跨语言序列标注任务上的差距十分可观,导致模型难以达到实用要求。因此,本文从任务角度,对零样本跨语言序列标注模型的结果进行分析,得出结论为一个主要性能障碍是模型预测中的边界错误。在目标语言上,零样本跨语言序列标注模型虽然可以有效地定位标注目标的局部上下文,但难以精确给出目标片段的边界。为了解决这个瓶颈,本文提出了一个两阶段跨语言序列标注框架。第一步中,基础模块采用序列标注模型来生成初始答案,第二步中,校准模块基于基础模块的输入输出以机器阅读理解的方式细化初始答案的边界。为了解决低资源语言缺乏训练数据的挑战,本文设计了一种基于自监督和弱监督的短语边界恢复任务,以增强校准模块的多语言边界检测能力。实验结果表明,本文提出的方法对多个零样本跨语言序列标注任务的多个基线都有明显提升,即使是在预训练任务没有覆盖的语言上也有很好的效果。

关键词：跨语言序列标注知识蒸馏对比学习预训练

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：