【目的】解决基于深度学习的实体关系抽取方法在古籍小样本场景下,由于依赖大规模标注数据而导致的微调效率低、抽取性能不佳问题。【方法】提出一种基于提示学习和抽取式阅读理解的古籍礼仪实体关系联合抽取方法。首先,将实体识别和关系抽取任务整合至一个抽取式阅读理解框架中,简化模型结构。然后,利用领域知识设计三种轻量级提示策略,有效降低联合抽取任务的复杂度。最后,基于预训练语言模型和全局指针网络构建古籍礼仪实体关系联合抽取模型MPG-GP(MRC-Prompt-GujiBERT with Global Pointer),有效抽取古籍中的礼仪实体关系三元组。【结果】在构建的古籍礼仪实体关系联合抽取数据集上进行实验,本文方法F1值比基线方法提升了0.32~6.05个百分点。【局限】在构建提示模板时,未采用可学习的软提示方式,并且提示设计仍有进一步优化的空间。【结论】所提方法能够有效缓解深度神经网络对大量标注数据的依赖,提升了模型在小样本古籍礼仪实体关系联合抽取任务上的准确性,为古籍低资源场景信息抽取提供了新的方法和思路。
实体关系联合抽取作为构建知识图谱的核心环节,旨在从非结构化文本中提取实体-关系三元组。针对现有联合抽取方法在解码时未能有效处理实体关系间的相互作用,导致对语境理解不足,产生冗余信息等问题,提出一种基于并行解码和聚类的实体关系联合抽取模型。首先,利用BERT(bidirectional encoder representations from transformers)模型进行文本编码,获取语义信息丰富的字符向量。其次,采用非自回归并行解码器增强实体关系间的交互,并引入层次凝聚聚类算法及多数投票机制进一步优化解码结果以捕获语境信息,减少冗余信息。最后,生成高质量的三元组集合,以构建课程知识图谱。为评估该方法的性能,在公共数据集NYT和WebNLG以及自建C语言数据集上进行实验,结果表明,该方法在精确率和F1值上优于其他对比模型。
暂无评论