针对复杂语境下的蔬菜种植领域命名实体识别任务中存在实体分布不均衡、实体边界不清晰和语义关联不足等问题,提出一种基于对抗训练和多头自注意力机制的蔬菜种植领域命名实体识别模型。以番茄为研究对象,采用ALBERT(a lite BERT)提取...
详细信息
针对复杂语境下的蔬菜种植领域命名实体识别任务中存在实体分布不均衡、实体边界不清晰和语义关联不足等问题,提出一种基于对抗训练和多头自注意力机制的蔬菜种植领域命名实体识别模型。以番茄为研究对象,采用ALBERT(a lite BERT)提取语料动态词向量,结合对抗训练对词向量扰动生成对抗样本并集成为嵌入层输出,缓解农业数据不平衡问题;在特征提取层中通过引入多头自注意力机制对BiLSTM提取的序列特征进一步优化权重分布,更多关注边界信息,加强文本语义关联;最后采用条件随机场解码标注序列。在由8个类别和5542条标注样本构建的语料库Veg-Tomato上进行了实验。结果表明,该模型的精确率、召回率和F1值分别达89.26%、85.77%、87.48%,较最优基线模型提高了0.69、3.56、2.21个百分点,在小样本数据上仍能表现较高的识别精度,适用于蔬菜种植领域命名实体识别任务。
暂无评论