中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法。该方法首先利用RoBERTa-wwm-ext预训练模型对输入的中文医疗文本进行编码处理,以生成包含丰富语义信息的词向量序列;然后,将这些词向量序列送入BiGRU网络和集成了注意力机制的迭代扩张卷积神经网络,以捕获输入文本的上下文信息以及扩展感受野;最后,将这些融合了语法语义特征、上下文信息以及扩展感受野的特征一起输入到全局指针网络(Efficient Global Pointer, EGP)之中,以此进行实体类别的判定,并输出具有高准确度的实体类别序列。实验结果表明,所提出的RBIEGP模型在CMeEE/Yidu-S4k数据集上的F1分数分别达到了70.47%和83.02%,相较于一些现有的主流模型,分别提升了2.72%和1.99%。
暂无评论