版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:沈阳航空航天大学
学位级别:硕士
导师姓名:蔡东风;陈建军
授予年度:2019年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:数值信息 Bi-LSTM-CRF模型 元素识别 关系识别
摘 要:随着大数据时代的到来,网络中每天产生着大量的数据。无论是企业还是个人,对网络资源的依赖都显得尤为凸出。在工业领域,数值作为一种直观的表达方式,能够反映出工业相关信息,一直被企业和个人所需要。因为目前缺少一种有效的工业领域的数值信息抽取方法,所以本文对其抽取方法进行研究。首先本文对数值信息的表示形式做出改进,将工业领域的数值信息定义为七元组形式(主体、属性、属性值、比较词、比较对象、时间、地点),并将数值信息抽取分为数值信息元素识别和数值信息元素关系识别两个步骤。在数值信息元素识别方面,采取一种阶段性数值信息元素识别方法。即根据各个数值信息元素的特点,在不同阶段采用不同方法对相应的数值信息元素进行识别。并将当前阶段的识别结果输入给下一阶段使用。对于属性值来说,由于其表达比较固定,故采用了基于模板的方法;对于比较词来说,其数量有限,因此本文采用字典和规则相结合的方法进行识别;对于主体、属性则采用了序列标注算法;比较对象的识别则通过规则在之前数值信息元素中进行识别。实验结果表明,该方法融合了规则、Bi-LSTM-CRF模型的优势,对数值信息元素的识别取得了比较满意的效果。在数值信息元素关系识别方面,本文通过分析文本特征,制定了一套规则来对属性值和其他数值信息元素的关系进行识别,进而抽取出完整数的值信息。最后,本文结合实际知识服务的需要,面向工业领域开发了数值信息抽取系统,该系统能较准确的抽取出相关数值信息。