为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating kn...
详细信息
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。
作为机器学习领域的研究新方向,多无源域适应旨在将多个源域模型中的知识迁移到目标域,以实现对目标域样本的准确预测。本质上,解决多无源域适应的关键在于如何量化多个源模型对目标域的贡献,并利用源模型中的多样性知识来适应目标域。为了应对上述问题,提出了一种基于源模型贡献量化(Source Model Contribution Quantizing,SMCQ)的多无源域适应方法。具体而言,提出了源模型可转移性感知,以量化源模型的可转移性贡献,从而为目标域模型有效地分配源模型的自适应权重。其次,引入了信息最大化方法,以缩小跨域的分布差异,并解决模型退化的问题。然后,提出了可信划分全局对齐方法,该方法用于划分高可信和低可信样本,以应对域差异引起的嘈杂环境,并有效降低标签分配错误的风险。此外,还引入了样本局部一致性损失,以减小伪标签噪声对低可信样本聚类错误的影响。最后,在多个数据集上进行实验,验证了所提方法的有效性。
暂无评论