利用人工智能技术对商业情报进行分析对企业获取竞争优势有重要意义。关键词表示了文档的主题及主要内容,借助关键词人们可以快速地把握商业情报主题和内容,关键词表示了文档显著性,是许多情报挖掘算法中非常重要的特征,关键词标注也成为自然语言处理领域的重要研究方向。关键词标注可分为关键词分配、关键词抽取和关键词生成,后两者是当下的主要研究对象。本文基于超网络与预训练语言模型,针对深度学习的关键词标注目前存在曝光偏差、不存在关键词生成效果差等问题,开展了有监督的关键词标注算法研究。本文针对文档结构和文本表示学习在关键词标注中的重要作用,从四个方面提出基于增强文本表示能力的关键词标注方法:基于标题增强预训练语言模型表示能力的关键词抽取;基于标题增强解码器表示能力的关键词生成;基于文档结构和多任务学习增强预训练语言模型的关键词标注;基于领域和任务自适应预训练技术的关键词标注。最后,在已有的企业竞争情报系统模型基础上,设计了应用关键词标注技术的商业情报分析模型。本文主要工作如下:(1)提出了Hyper Net算法,该算法利用超网络将描述性元信息融入预训练语言模型,有效利用标题这类描述性元信息,明显改善预训练模型的性能,显著提高了关键词抽取的效果。(2)创新性地提出了Title-Guided Decoding Neural Networks(TGDNN)算法,TGDNN利用超网络将标题信息融入解码器的关键词生成,增强了解码器的表示能力。算法充分利用标题包含的语义信息来约束解码器生成关键词的过程,能够有效生成和文章主题相关的关键词,显著提高关键词生成的性能。(3)提出了DH-Net(Pre-trained Model based Hybrid and Hyper Networks for Keyphrase Generation,Double H-Net)方法,该方法结合Hypernet和TGDNN,针对最新的关键词生成训练范式one2set导致的关键词重复率以及生成模型的曝光偏差问题,把关键词标注任务分为存在关键词抽取和不存在关键词生成任务,应用多任务学习进行关键词标注。DH-Net减少了one2set造成的关键词重复,缓解了生成模型的曝光偏差,进一步提高了关键词生成质量。(4)针对以上方法都依赖于<标题,正文>这种文档结构的局限性,提出了一种微调预训练语言模型进行关键词标注方法。该方法使用领域自适应预训练和任务自适应预训练技术继续预训练语言模型,从而增强预训练语言模型在目标领域和具体任务上的文本表示能力,在不依赖标题的前提下,提高了基于微调预训练模型的关键词标注性能。
暂无评论