随着深度学习以及高性能计算资源的发展,基于注意力机制的预训练模型在自然语言处理以及多模态领域都取得了优异的成绩。但是,当前的预训练模型需要大量训练数据,模型规模巨大,导致其训练成本高,很难部署在低资源设备上。为此,本文研究采用轻量级模型、使用较少量数据集进行训练的多模态预训练模型,具体工作如下:基于课程学习(curriculum learning)的思想,提出了 一种新的多阶段预训练方法。模仿人类学习的过程,由简单到复杂分阶段地逐步增加任务的难度,以更好地利用不同类型的数据,提升学习的性能。本文中的多阶段预训练机制利用训练语料图-文对应的不同信息粒度,依次在单词级、短语级、句子级进行分阶段预训练,同时本文为每一阶段的预训练都设计了适合该阶段信息粒度的新的预训练任务,以充分捕获有限语料中的各种知识。例如,为使模型充分学习图像和文本的对应关系,本文设计了图像特征随机打乱(Image Features Random Shuffle,IFRS)任务,使模型根据文本端的顺序还原图像原始顺序。在包括视觉问答、图像文本检索等不同下游任务的多个数据集上的实验结果表明,本文模型在所有下游任务的准确率都达到了与原始大模型可比的性能,在部分数据集上甚至超过了大模型的性能。本文进一步对所提出的多模态预训练模型进行了可视化研究,得到了对模型工作原理的一些解释性结论。包括:基于单词粒度的预训练有助于模型实现图像文本的对齐,基于短语粒度的预训练有助于模型学习物体的属性信息等。在此基础上,构建了一个面向注意力分布的可视化工具,对模型工作时内部注意力分布情况进行可视化,探究单个模态之间以及多模态之间的注意力分布,探究预训练模型如何学习语料中的知识以及如何利用语料中的知识解决下游任务。
暂无评论