对于生鲜蛋供应链知识图谱构建过程中供应链领域实体名称多样、特征信息提取不充分的问题,提出了一种基于BERT-CRF模型(Bidirectional encoder representations from transformers-conditional random field)的命名实体识别方法。该方...
详细信息
对于生鲜蛋供应链知识图谱构建过程中供应链领域实体名称多样、特征信息提取不充分的问题,提出了一种基于BERT-CRF模型(Bidirectional encoder representations from transformers-conditional random field)的命名实体识别方法。该方法使用BIO(Begin、Internal、Other)标记规则进行序列标注,以字向量和位置向量作为输入,通过BERT预训练模型提取输入序列全局特征,并在模型的末端添加CRF层引入硬约束,构建适合生鲜蛋供应链领域命名实体识别的模型框架。所提出的模型与其他3种命名实体识别模型在自建数据集上进行了对比实验,该数据集包含12810条文本语料数据,5大类21个小类。实验结果表明,本文模型取得了很好的结果,准确率、召回率和F1值分别达到91.82%、90.44%、91.01%,验证了本文模型优于其他3种模型。最后本文模型使用自建的食品领域菜谱数据集进行实验,结果表明模型具有一定的泛化能力。
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名...
详细信息
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名实体识别模型。模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field, CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体。实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%。Bert-BiLSTM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率。
暂无评论