为了识别中文文本中的嵌套实体,并提高实体识别的准确度,本文提出一种基于多尺度卷积和数据增强的中文嵌套实体识别模型DAMCNER(Data Augmentation and Multi-scale Convolution based Named Entity Recognition)。该模型首先利用预...
详细信息
为了识别中文文本中的嵌套实体,并提高实体识别的准确度,本文提出一种基于多尺度卷积和数据增强的中文嵌套实体识别模型DAMCNER(Data Augmentation and Multi-scale Convolution based Named Entity Recognition)。该模型首先利用预训练模型生成原始输入的嵌入表示并对嵌入特征进行语义增强,之后通过多头双仿射注意力机制构造跨度特征矩阵,并使用多尺度膨胀卷积层和基于内容的注意力机制对跨度特征矩阵进行进一步的特征提取,最后使用多层感知机进行跨度解码。此外,本文设计了数据增强模块强化数据样本的多样性,让模型具有更强的鲁棒性和泛化能力,并且进一步提升识别精确度。在三个公开的中文嵌套实体数据集上的实验结果表明,DAMCNER模型的性能优于现有基线模型,F1值平均提升了1.52%。实验证明DAMCNER模型在不同场景下均有较好效果,有效提升了中文嵌套实体识别的效果。
暂无评论