近年来,材料基因组计划(material genome initiative,MGI)已成为全球热点。数据源的缺乏和数据存储方法的不规范导致材料领域缺乏可用于机器学习模型训练的结构化数据,这成为了研究人员对材料性能进行预测的瓶颈。随着材料科学的不断发展,材料领域文本中包含的大量信息,已成为材料领域研究人员应用机器学习的主要数据来源,如何获取大量有效的材料数据是成为现阶段的一项具有挑战意义的工作。本论文采用自然语言处理技术从铝硅合金材料文献中获取有效数据。命名实体识别是自然语言处理中一项重要的子任务,旨在识别文本中具有特定意义的实体。具体研究方法是从材料科学文献中选择五类实体,手工标注构建了铝硅合金材料实体识别数据集,包括5347个句子,2835个实体。为了减少自然语言处理任务对标注语料的依赖,利用迁移学习将语言模型预训练后应用到特定领域任务中;结合实体特征,基于ALBERT(A Lite BERT)预训练语言模型与条件随机场(conditional random fields,CRF)进行联合建模,并将预训练模型基于主动学习应用于合金材料实体识别。在基于少量标注的训练集样本下,结合主动学习,使得模型的F1值、精确率、召回率分别提高了0.61%,2.68%,0.29%。实验证明结合预训练和主动学习能够进一步减少实体识别任务模型对标注数据的依赖及人工标注的成本。论文研究成果可解决材料数据孤岛问题,改善材料基因组机器学习一直处于小规模数据集的困境,将促进铝硅合金的研发进程,为材料基因组新材料设计提供科学依据。
太阳活动区是各类太阳活动的主要能量来源,剧烈的太阳活动直接影响人类的生存环境,因此,准确地检测与跟踪太阳活动区对监控和预报空间天气非常重要.基于深度学习框架的YOLOv3-spp和DeepSort,提出了一种太阳活动区检测和跟踪方法(Active Regions Detection and Tracking Method,ARDTM),该方法较好地解决了传统图像处理方法易将一个太阳活动区误检测为多个,或者多个太阳活动区误检测为一个的问题;及时捕获新产生的太阳活动区和终止跟踪消失的太阳活动区,有效提高了太阳活动区的跟踪准确率.实验结果表明,该方法可以较好地检测和跟踪不同望远镜、不同时间间隔序列图像中的太阳活动区.
暂无评论