随着南方电网公司企业级应用系统在全网的全面建设与推广,各类信息系统中的数据量增长迅速,尤其职工创新项目管理系统中的项目申报文本数据。在“创新驱动”的加持下,项目申报量与日俱增,但是文本数据处理的方法却较为落后,导致了面对海量时工作效率低、审批周期长的问题。本文研究旨在通过自然语言处理技术(Natural Language Processing,NLP)提高职工创新项目管理系统中海量创新项目文本的智能化管理水平。职工创新管理系统中的数据,主要以中文文本的方式进行信息传递。对此,论文研究内容主要包括如下两个方面:一是职工创新项目文档中文命名实体识别技术研究,二是项目文档文本相似度计算。通过命名实体识别技术提取创新项目申请书中的主要名词性实体对象,可用于创新系统中信息检索、关键字提取、信息快速概括等功能的建设;相似度检测是项目评审中的重要一环,用于防止项目“交叉申报”、“多头申报”等,确保立项项目的创新性和先进性。论文基于NLP技术研究职工创新项目文本命名实体识别和文本相似度计算。使用网格长短期记忆网络(Lattice Long Short-Term Memory,简称Lattice LSTM)可以高效输入其文本信息与文本潜在匹配词关联信息特点,引入多头注意力机制与输入词信息。实验结果表明,本文提出的模型相对于双向长短期记忆-条件随机场模型,在准确率、召回率和F1值三个评价指标上分别提高了2.56%、10.53%和5.63%。进一步针对传统方法对文本相似度检测相似度匹配不高的问题,提出了基于语义的文本相似度计算方法,将创新文本整体与各组成部分之间抽象表示为一个无向图,计算文档各章节图结构相似度,再结合Ro BERTa-WWM(Robustly Optimized BERT Pretraining Approach-Whole Word Masking)模型提取文档的语义特征,从而计算出待测文本和目标文本的相似度,实现了对职工创新项目申请书的相似度检测。
暂无评论