针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(At-tAux-BERT-BiLSTM-CRF)。通过BERT预处理模型进行文本向量化,然后连接双向长短期记忆网络(Bi-directional long-short term memory,BiLSTM);引入注意力机制,将模型的BERT层输出用作辅助分类层,BiLSTM层输出作为主分类层(Mainlayer),通过注意力机制组合以提高整体性能;最后输入条件随机场(Conditional random field,CRF),构建端到端的适合于兽药领域实体识别的深度学习模型框架。实验选取兽药文本共10643个句子、485711个字符,针对动物、药物、不良反应、摄入方式4类实体进行识别。实验结果表明,本文模型能有效地辨别兽药致病文本中的实体,识别的F1值为96.7%。
为了解决传统冷鲜牛肉品质检测技术的操作繁琐、有不可逆破坏等问题,提出采用高光谱与多参数融合的冷鲜肉品质检测方法。以冷鲜牛肉品质作为研究对象,提取冷鲜牛肉感兴趣区域(ROI)光谱并测量冷鲜牛肉的质构参数:硬度、弹性、粘聚性、胶着度、咀嚼度、回复性。经参数精度比较,筛选出粘聚性、回复性作为建模参数。分别采用Kennard-Stone和SPXY算法对原始光谱数据进行划分,通过样本划分后所建模型的相关系数和相对标准偏差确定最优样本划分方法,最终采用SPXY(sample set partitioning based on oint X-Y distance)算法对样本进行划分得到35个训练集和7个测试集。在经过SPXY算法样本划分的基础上,分别采用一阶微分(D1_(st))、多元散射校正(MSC)、标准正态变换(SNV)、二阶微分(D2_(st))对高光谱数据进行预处理,有效消除了光谱中的噪声,提高信噪比。使用连续投影法(SPA)提取光谱特征波长,有效减小了全波段建模包含的大量噪声信息的缺点,使模型精确度得到保障的同时提高了模型的运行速度。最后,分别采用偏最小二乘法(PLSR)和主成分回归法(PCR)构建冷鲜牛肉品质预测模型。以粘聚性为参数时,SNV-SPA-PLSR模型性能最优,模型预测相关系数为0.8798;以回复性为参数时,D2_(st)-SPA-PLSR模型精度最高,模型预测相关系数为0.8806。实验结果表明,基于高光谱与多参数融合的冷鲜肉品质检测方法能够实现冷鲜牛肉品质快速检测。
人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤。虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息。针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体。首先通BERT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正。试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95.00%,召回率为88.88%,F1分数为91.81%。研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路。
暂无评论