多标签文本分类(multi-label text classification,MLTC)旨在从预定义的候选标签中选择一个或多个文本相关的类别,是自然语言处理(natural language processing,NLP)的一项基本任务。前人工作大多基于规范且全面的标注数据集,而这些规...
详细信息
多标签文本分类(multi-label text classification,MLTC)旨在从预定义的候选标签中选择一个或多个文本相关的类别,是自然语言处理(natural language processing,NLP)的一项基本任务。前人工作大多基于规范且全面的标注数据集,而这些规范数据集需要严格的质量控制,一般很难获取。在真实的标注过程中,难免会缺失标注一些相关标签,进而导致不完全标注问题。该文提出了一种基于部分标注的自训练多标签文本分类(partial labeling self-training for multi-label text classification,PST)框架,该框架利用教师模型自动地给大规模无标注数据分配标签,同时给不完全标注数据补充缺失标签,最后再利用这些数据反向更新教师模型。在合成数据集和真实数据集上的实验表明,PST框架兼容现有的各类多标签文本分类模型,并且可以缓解不完全标注数据对模型的影响。
文本分类是自然语言处理领域的一项关键任务,旨在根据已有的文本和标签数据,建立文本和标签之间的映射关系,进而对未知文本进行标记。文本分类通过获取文本相关特征,使用分类器对文本进行分类,在情感识别、信息推荐等领域广泛应用。随着应用场景的增多,文本数据内容更加丰富、分类粒度也逐渐细化,例如一篇文章可能同时涉及政治、金融、军事等多个领域。传统的单标签分类只能将待分类文本映射到一个标签,而多标签文本分类可以将文本映射到多个标签。单标签文本分类难以满足对文本数据进行更细粒度分类的现实需求,因此,多标签文本分类已经成为自然语言处理领域的一个重要研究方向。在多标签文本分类任务中,文本数据往往包含大量的文章和标签,因为不同的标签可能共享相同的文档子集,所以标签之间往往存在复杂的语义联系。在包含长文本的数据中,与分类相关的语义信息会隐藏在文本噪声或者冗余信息中难以获取。此外,多标签文本数据存在少数标签拥有大量文档数据,而大量尾部标签只有少数文档数据的问题,也就是长尾分布问题。本文针对多标签文本分类中捕获复杂标签依赖关系和多标签文本分类中的长尾分布问题进行研究,提出基于统计特征的自适应标签信息学习模型(Adaptive label information learning with statistical features,ALISF)和多信息过滤编码网络(Multi-Information Filter Encoding Network,MIFEN)。其中ALISF主要研究如何捕获复杂标签依赖关系,MIFEN结合标签特征,进一步解决长尾分布问题。本文主要贡献如下:(1)提出主题先验自适应的标记狄利克雷主题模型(Labeled Latent Dirichlet Allocation with adaptive topic priors,LDATP),该主题模型根据每个文本的标签集合调整标签对应主题狄利克雷先验参数,使用与数据集标签对应的全部主题约束模型。该模型是一个有监督模型,在标签和模型主题之间建立对应关系,通过矩阵运算,为与文档标签对应的主题以及和文档标签不对应的主题分配不同大小的狄利克雷先验值,使用全部主题约束模型,捕获更加精确的主题单词关系,生成涵盖全局信息的主题单词概率分布。(2)提出标签信息整合网络(Label Information Integration Network,LIIN),该网络通过将获得的主题单词概率分布映射到向量空间,利用标签图结构捕获标签依赖关系获得增强的标签向量表示。为捕获标签的相关性特征,该网络构建可传递高阶信息的双层图卷积神经网络,在使用标签共现特征构建的标签图节点之间传递信息,从标签邻居节点获得高阶语义特征,更新标签空间向量,增强标签嵌入表示。(3)提出多信息过滤编码器,该编码器包含可学习的文本信息过滤编码器(Learnable text information filter encoder,LTIFE)和可学习的标签信息过滤编码器(Learnable label information filter encoder,LLIFE)这两种过滤编码器,以并行的方式在频域中衰减文本空间和标签空间中的噪声信息,并在时域内通过特征提取层提取过滤特征中的文本语义信息和标签相关性关系以优化特征空间。(4)提出过滤特征引导的文档表示方法,该方法利用头部标签和尾部标签的相关性信息,引导过滤特征的交互过程,从文本特征中捕获与尾部特征相关的语义联系生成文本特定的标签表示,用以丰富尾部标签的特征,并通过拼接和池化操作融合提取的文本特定标签特征和文本语义特征来生成文档表示。为了评估模型的性能,本文分别将提出的ALISF和MIFEN方法与现有方法进行多组对比实验,并对多个测量指标的实验结果进行分析。实验结果表明,本文提出的方法可以很好地学习标签之间的相关性关系,捕获更多标签相关的语义信息,有效解决多标签文本分类中的长尾分布问题。
暂无评论