版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:重庆邮电大学
学位级别:硕士
导师姓名:黄胜
授予年度:2019年
学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:信息披露公告 信息抽取 文档结构树 深度学习 词向量
摘 要:随着互联网金融时代的到来,各家上市公司每天通过信息披露网站发布海量的公告,公告中蕴含的信息对投资分析、企业利益、市场影响和社会经济资源分配都起着至关重要的作用。信息披露公告本身是一类非结构化文本,其信息分布零散且冗余信息干扰较大。传统的信息抽取系统有诸多局限性,难以快速、高效、准确地抽取到公告的关键信息。本文面向上市公司三类信息披露公告,设计了一种结合文档结构与深度学习模型的信息抽取系统。具体如下:1.自定义一种文档结构树算法,利用算法准确还原公告文本的层级结构。在树型结构的基础上,按照目标信息范围从大到小设计了多类信息抽取方法,主要包括自定义节点内容抽取方法,能够精确定位到关键的信息节点(章节)位置并抽取内容;基于句子触发词集拓展的信息句抽取方法,能够从节点内容中准确抽取到包含结构化信息的信息句;表格信息抽取方法,能够准确的定位所需表格并提取其结构化字段信息。实验结果表明,信息句及表格的抽取F1值可达93%以上,表格结构化字段抽取F1值达到97%以上。2.将信息句结构化信息抽取看作序列标注问题,构建深度学习模型进行自动识别。首先构建金融领域知识词典,在分词时加入词典确保信息句分词的准确性;然后使用Word2vec在大规模语料库上预训练专业领域词向量,将输入序列的单词映射为低维的实数向量;最后构建基于双向长短期记忆网络的深度学习模型,并引入条件随机场加强标签之间的关联约束,融合上下文语境信息进行结构化信息的自动识别。此外,在模型训练时使用半自动的语料标注与修正的方法构建训练语料。最终实验结果表明,字段抽取的平均F1值可达92%左右。3.整合各类方法和算法模型,根据实际应用需求设计并实现上市公司三类公告信息抽取系统,系统主要包括四大模块:公告获取模块、文档结构树生成模块、信息抽取模块和显示及储存模块。最后对整个系统功能进行测试,测试表明该系统信息抽取性能优越。