针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(At-tAux-BERT-BiLSTM-CRF)。通过BERT预处理模型进行文本向量化,然后连接双向长短期记忆网络(Bi-directional long-short term memory,BiLSTM);引入注意力机制,将模型的BERT层输出用作辅助分类层,BiLSTM层输出作为主分类层(Mainlayer),通过注意力机制组合以提高整体性能;最后输入条件随机场(Conditional random field,CRF),构建端到端的适合于兽药领域实体识别的深度学习模型框架。实验选取兽药文本共10643个句子、485711个字符,针对动物、药物、不良反应、摄入方式4类实体进行识别。实验结果表明,本文模型能有效地辨别兽药致病文本中的实体,识别的F1值为96.7%。
由于核桃Jug r 2是核桃中的主要过敏原,Jug r 2的线性表位是引发核桃过敏反应的关键因素,因此筛选Jug r 2线性表位工作是必要的。本研究利用免疫信息学中的DNAStar Protean系统和ABCpred在线工具预测Jug r 2中的B细胞线性表位。利用体...
详细信息
由于核桃Jug r 2是核桃中的主要过敏原,Jug r 2的线性表位是引发核桃过敏反应的关键因素,因此筛选Jug r 2线性表位工作是必要的。本研究利用免疫信息学中的DNAStar Protean系统和ABCpred在线工具预测Jug r 2中的B细胞线性表位。利用体外模拟胃肠消化和HPLC-MS/MS对抗消化肽段的一级序列进行分析,并对两种免疫信息学工具预测得到的B细胞线性表位和抗消化肽段在Jug r 2模拟三维结构上进行定位分析。结果表明:预测得到8个B细胞线性表位(AA186~199、AA226~230、AA257~263、AA284~289、AA373~382、AA389~398、AA408~414、AA472~487)和11个抗消化肽段(AA215~220、AA250~260、AA323~337、AA351~356、AA363~388、AA428~438、AA470~483、AA488~513、AA514~526、AA527~541、AA545~572)。在抗消化肽段中,4条与预测或已知真实的B细胞线性表位序列重合,8条与已知真实的T细胞表位序列重合,并且抗消化肽段在Jug r 2三维结构的定位中表现出亲水性和柔韧性的良好抗原性质。综上,研究食物过敏原的耐消化特性可能是研究Jug r 2的线性表位的一个潜在策略。
为了解决传统冷鲜牛肉品质检测技术的操作繁琐、有不可逆破坏等问题,提出采用高光谱与多参数融合的冷鲜肉品质检测方法。以冷鲜牛肉品质作为研究对象,提取冷鲜牛肉感兴趣区域(ROI)光谱并测量冷鲜牛肉的质构参数:硬度、弹性、粘聚性、胶着度、咀嚼度、回复性。经参数精度比较,筛选出粘聚性、回复性作为建模参数。分别采用Kennard-Stone和SPXY算法对原始光谱数据进行划分,通过样本划分后所建模型的相关系数和相对标准偏差确定最优样本划分方法,最终采用SPXY(sample set partitioning based on oint X-Y distance)算法对样本进行划分得到35个训练集和7个测试集。在经过SPXY算法样本划分的基础上,分别采用一阶微分(D1_(st))、多元散射校正(MSC)、标准正态变换(SNV)、二阶微分(D2_(st))对高光谱数据进行预处理,有效消除了光谱中的噪声,提高信噪比。使用连续投影法(SPA)提取光谱特征波长,有效减小了全波段建模包含的大量噪声信息的缺点,使模型精确度得到保障的同时提高了模型的运行速度。最后,分别采用偏最小二乘法(PLSR)和主成分回归法(PCR)构建冷鲜牛肉品质预测模型。以粘聚性为参数时,SNV-SPA-PLSR模型性能最优,模型预测相关系数为0.8798;以回复性为参数时,D2_(st)-SPA-PLSR模型精度最高,模型预测相关系数为0.8806。实验结果表明,基于高光谱与多参数融合的冷鲜肉品质检测方法能够实现冷鲜牛肉品质快速检测。
人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤。虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息。针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体。首先通BERT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正。试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95.00%,召回率为88.88%,F1分数为91.81%。研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路。
为确定影响Jug r 1线性表位致敏性的关键氨基酸,研究2种免疫信息学方法预测Jug r 1线性表位关键氨基酸的准确率和效率,以进一步认识核桃主要过敏原Jug r 1的B细胞线性表位。本研究通过2种免疫信息学的方法对Jugr1中3个线性表位上的关键...
详细信息
为确定影响Jug r 1线性表位致敏性的关键氨基酸,研究2种免疫信息学方法预测Jug r 1线性表位关键氨基酸的准确率和效率,以进一步认识核桃主要过敏原Jug r 1的B细胞线性表位。本研究通过2种免疫信息学的方法对Jugr1中3个线性表位上的关键氨基酸进行预测,采用丙氨酸扫描诱变法对关键氨基酸进行识别,采用固相合成技术合成Jug r 1系列突变多肽,以部分中国核桃过敏患者血清为探针,识别Jug r 1关键氨基酸。结果表明:表位1(4LVALLFVANAAA15)中的第4位亮氨酸、第7位亮氨酸、第8位亮氨酸和表位2(16FRTTITTMEIDEDID30)中的第20位异亮氨酸、第21位苏氨酸、第22位异亮氨酸以及表位3(125CGISSQRCEIRRSWF139)中的第127位异亮氨酸、第129位丝氨酸、第130位谷氨酰胺为关键氨基酸。使用两种免疫信息学结合预测的关键氨基酸准确率达到100%,但预测效率仅为11%。因此,使用2种免疫信息学结合的方式预测表位关键氨基酸可提高准确性,但会忽略一些关键氨基酸。免疫信息学结合丙氨酸扫描诱变法是识别表位关键氨基酸的重要研究思路。
暂无评论