随着医学信息化程度不断增加,产生了大量的医学文本数据,通过信息挖掘与分析,从非结构化的数据中抽取三元组成为重要的研究方向。传统的中文医学文本的实体关系抽取方法存在词组分割歧义、信息缺失和关系重叠等问题,本文通过词组信息嵌入和指针标注框架,融合自注意力机制,提出一个融合词汇增强的基于注意力机制的指针标注模型,以此来解决中文医学文本关系抽取中存在的问题,提升关系抽取的性能。本文的主要研究内容如下:在嵌入阶段使用词向量的固态表征,无法解决一词多义的问题,也无法理解复杂语境。所以本文提出的算法模型在字符级嵌入的基础之上,再利用预训练语言模型,来对医学文本进行进一步的编码,获取医学文本上下文相关的语义信息,更好地表征医学关系。而BERT使用双向的Transformer Encoder,可以有效的捕捉词语和句子级别的表征,因此本文在编码层采用了BERT。对于中文医学文本,传统机械式的词组分割容易产生歧义,导致实体抽取不准确,为了更好地引入词组信息,辨识医学实体边界,本文提出的模型算法采用了Flat-Lattice结构,可以在中文文本字符级嵌入的基础上,融入词组信息,解决词组信息缺失的问题。Flat-Lattice结构可以获取到中文医学文本中的词组,对每个字符和词组都添加相应的位置索引,然后通过相对位置编码,将位置信息进行交互计算,嵌入词组信息。除此之外,在编码层还可与BERT进行协作,利用预训练模型的长距离表征能力,进一步融合中文医学文本中的信息,从而解决中文文本关系抽取词组信息缺失的问题。传统的三元组抽取方式先抽取出实体对,然后根据实体对分配对应的关系,但这种方式难以有效应对EPO和SEO的关系重叠问题,本文通过使用基于注意力机制的指针标注框架,将关系作为subject到object的映射函数,而不是将关系视为实体对上的离散标签。先通过头尾标注,判断对应的字符是否是实体起始或者结束字符,以此得出所有可能的subject。然后对于可能的subject,提取其特征并于编码层的特征进行叠加,再利用自注意力机制长距离信息的捕捉能力,以标注subject一样的方式,标注出特定关系下对应的object。这样方式下,可以判断出以一个实体和关系为基础,其对应的所有可能的匹配实体,从而解决关系重叠的问题。本文算法在中文医学数据集CMe IE(Chinese Medical Information Extraction)进行关系抽取实验验证。通过与基准模型进行对比,得出的实验结果表明,本文提出的算法模型能够有效地解决中文医学文本关系中存在的词组信息缺失和关系重叠问题,准确率、召回率和F1值分别达到了63.40%、63.45%和63.42%,均高于基准模型,并在消融实验中也分析了各个模块的增益,进一步通过关系重叠实验验证了模型对于解决关系重叠问题的能力,验证了本文提出模型的有效性。
知识图谱的发展使大规模的无规则数据得以高效的管理,然而其构建的准确性与完整性仍有待完善。实体关系抽取作为构建知识图谱的关键环节,其性能直接影响知识图谱的效果,对知识图谱的构建、扩充以及下游任务的实施具有重要的意义。目前,联合抽取方法作为实体关系抽取领域的研究热点,可以在一定程度上避免流水线抽取方法中存在的误差积累和交互缺失问题,但仍然无法解决关系重叠、语义特征表达欠缺和模型依赖性不足的问题。针对上述问题,提出一种基于深度神经网络的实体关系联合抽取模型BAPRE(Relational Extraction model based on BERT,Attention and Pointer Annotation)。首先,在词向量表示阶段,使用预训练语言模型BERT生成动态词向量,解决静态词向量无法避免的多义词问题,获取潜在的深层表征信息;然后,在特征提取阶段,引入多头注意力机制多维度捕获词向量间的依赖关系,并通过权重捕获重点信息,从而得到更加丰富的语义特征;最后,在标签预测阶段,将实体关系建模为主语到宾语的映射函数,利用单层指针标记主语,并通过改进层归一化网络将主语特征与语句向量进行特征融合,以此增强模型的依赖性,再采用多层指针在融合得到的特征向量中进行不同关系条件下的宾语抽取,从而解决实体关系抽取中的关系重叠问题,提高实体关系三元组的抽取效果。论文选用公开数据集NYT和Web NLG,将Novel Tagging、Copy RE、Graph Rel、Cas Rel等几个基线模型作为对比模型,分别进行了整体实验、消融实验、三元组重叠实验、不同复杂度下的模型性能对比实验以及调参实验,其中BAPRE的整体实验结果相比目前最优的基线模型在两个数据集上的F1值分别提高了2.5%和0.9%,准确率和召回率也均优于其他几个基线对比模型。实验结果表明,BAPRE能够在一定程度上解决三元组重叠问题,并且能够提取到丰富的语义特征信息,进而有效提升三元组的关系抽取性能。该论文有图26幅,表12个,参考文献59篇。
暂无评论