为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法...
详细信息
为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式将提取的带标签数据隐式映射到分类器的参数空间中,进而在不收集无标签训练数据的情况下实现对分类空间的建模。在三个文本分类数据集上与四个基线方法相比,KE0TC能基于较少的训练语料,以较低的耗时达到较高分类性能。
暂无评论