近些年来,互联网技术的发展极大的改变了人们的生产生活方式。各种社交媒体的发展和产业信息化的深入使文本数据呈现出指数级的增长。这些海量的文本数据中包含许多有价值的信息,如何发掘其中的信息非常具有研究价值和意义。神经主题模型是一种可以通过无监督学习从海量数据中自动挖掘潜在主题信息的技术,已成为从文本文档中诱导潜在主题的最先进的无监督技术之一。
虽然现有的神经主题模型已经取得卓越的性能,但仍有改进的空间。针对现有基于外部信息融合的神经主题模型的语义信息融合不充分问题,本文提出一种基于预训练语言模型增强上下文语义信息的神经主题模型以及其改进模型。此外,针对基于嵌入式的神经主题模型的嵌入空间优化和约束不完善问题,本文提出一种基于嵌入空间优化与约束的神经主题模型。本文主要工作包括以下三点:
(1)神经主题模型常因为其输入的文本信息缺失,导致无法获得高质量的主题。一些工作将预训练语言模型的语义信息融入神经主题模型之中来缓解文本信息缺失问题,如CTM(Combined Topic Model)。然而,其直接将预训练模型的文本信息作为神经主题模型输入的方式很难充分利用预训练语言模型中的信息。针对此问题,本文提出基于预训练语言模型增强上下文语义信息的神经主题模型(Neural Topic Model Enhanced with Contextual Information Based on Pretrained Language Model,EGLs TM)来补充模型的语义信息。EGLs TM结合预训练语言模型,在全局上下文语义信息和局部上下文语义信息两个维度对神经主题模型进行语义补充。通过在多个不同数据集上的实验表明,本模型在主题连贯性方面比表现最好的基线模型平均提高7%,主题质量则平均提高4%。
(2)本文提出的EGLs TM模型在融合隐空间文本信息时,使用拼接融合的方法,导致隐空间特征不均匀,使模型过于关注上下文语义信息而忽略词频信息。针对此问题,本文进一步提出EGLs TM的改进模型(Topic Model Enhancing Global and Local Semantic Information with Word Embedding,EGLs TM-E),它改善EGLs TM隐空间特征不均匀、结构冗余等问题,进一步提升模型的性能。在主题质量方面,该模型在EGLs TM的基础上提升2%~4%。
(3)现有的基于嵌入式的神经主题模型缺少对主题-词分布的约束,任意其优化方向,这会导致主题不可解释。近些年,虽然出现许多新模型对嵌入空间进行约束,但大多单独对主题连贯性和主题多样性之中的一方面开展工作,很少能同时针对主题连贯性和主题多样性进行优化,例如NTMR、GMNNT(Generative Model with Nonlinear Neural Topics)。针对此问题,本文提出一种基于嵌入空间优化与约束的神经主题模型(Neural Topic Model Based on Embedding Space Optimization and Constraints,NTM-NSC)。NTM-NSC模型构建的嵌入空间能够直观的学习主题与词之间的非线性关系,缓解主题的冗余问题,提高主题的多样性。同时,通过构造主题连贯性约束来指导嵌入空间的优化方向,保证主题的连贯性。通过在多个数据集上的实验表明,NTM-NSC相较于基线模型在主题质量上提高大约4%~10%。
暂无评论