多项选择作为机器阅读理解中的一项重要任务,在自然语言处理(natural language processing,NLP)领域受到了广泛关注。由于数据中需要处理的文本长度不断增长,长文本多项选择成为了一项新的挑战。然而,现有的长文本处理方法容易丢失文本...
详细信息
多项选择作为机器阅读理解中的一项重要任务,在自然语言处理(natural language processing,NLP)领域受到了广泛关注。由于数据中需要处理的文本长度不断增长,长文本多项选择成为了一项新的挑战。然而,现有的长文本处理方法容易丢失文本中的有效信息,导致结果不准确。针对上述问题,提出了一种基于压缩与推理的长文本多项选择答题方法(Long Text Multiple Choice Answer Method Based on Compression and Reasoning,LTMCA),通过训练评判模型识别相关句子,将相关句拼接成短文本输入到推理模型进行推理。为了提高评判模型的精度,在评判模型中增加了文章与选项之间的交互以补充文章对选项的注意力,有针对性地进行相关语句识别,更加准确地完成多项选择答题任务。在本文构建的CLTMCA中文长文本多项选择数据集上进行了实验验证,结果表明本文方法能够有效地解决BERT在处理长文本多项选择任务时的限制问题,相比于其他方法,在各项评价指标上均取得了较高的提升。
中文医疗文本的实体识别是自然语言处理领域的重点研究方向,文本的内在复杂性,包括术语的歧义性、实体的层级性以及对上下文信息的高度依赖,均有可能对实体识别任务的结果产生显著影响。为此,提出一种基于RBIEGP模型的中文实体识别方法。该方法首先利用RoBERTa-wwm-ext预训练模型对输入的中文医疗文本进行编码处理,以生成包含丰富语义信息的词向量序列;然后,将这些词向量序列送入BiGRU网络和集成了注意力机制的迭代扩张卷积神经网络,以捕获输入文本的上下文信息以及扩展感受野;最后,将这些融合了语法语义特征、上下文信息以及扩展感受野的特征一起输入到全局指针网络(Efficient Global Pointer, EGP)之中,以此进行实体类别的判定,并输出具有高准确度的实体类别序列。实验结果表明,所提出的RBIEGP模型在CMeEE/Yidu-S4k数据集上的F1分数分别达到了70.47%和83.02%,相较于一些现有的主流模型,分别提升了2.72%和1.99%。
暂无评论