2019年8月30日,中国互联网络信息中心发布的第44次《中国互联网络发展状况统计报告》(1)显示,截至2019年6月底,我国网民规模为8.54亿。与此同时,4G的使用已进入成熟期,5G已于2019年6月6日投入商业使用。网民规模的扩大,网络技术的迅猛发展正源源不断地产生海量互联网数据,这些数据通常以文本、图像、视频、音频等多种模态的形式存在。自然语言处理(Natural Language Process,NLP)领域和计算机视觉(Computer Vision,CV)领域的研究对象通常是文本或图像等单一模态的数据,尽管对单一模态数据的研究已取得骄人的成绩,然而随着网络短视频、自媒体等的发展,网络用户对信息的需求也从单一的文本或图像转而升级到多模态数据。因此,如何有效地从多模态数据中挖掘出用户需要的信息已成为工业界和学术界亟待解决的重要问题。跨模态检索(Cross-Modal Retrieval)将多模态数据应用到信息检索领域,研究如何实现不同模态数据的相互检索。跨模态检索面临的首要问题是各模态数据具有相似的高层语义特征,然而底层数据分布不同,无法直接进行检索。因此,实现跨模态数据的一致性表示是研究重点。传统的跨模态检索研究通常使用典型相关分析等机器学习技术实现跨模态一致性表示。然而,传统的机器学习技术在跨模态检索中依赖手工提取的特征,适应性较差。相比之下,基于深度学习的跨模态检索能够自动提取抽象特征,较好地学习跨模态特征投影,通常能够取得不错的跨模态检索效果。本文利用自然语言处理和计算机视觉领域的先进研究成果,首先探究了不同模型的特征抽取效果,然后以文本和图像的深度特征为基础,提出了基于预定义子空间的跨模态检索(Predefined Subspace based Cross-Modal Retrieval,PSCMR)模型,并对该模型进行了相关实证研究。PSCMR模型预先定义公共子空间,在文本和图像深度表示的基础上,使用神经网络进行跨模态特征投影,利用神经网络的非线性映射能力将文本和图像特征投影到预定义的公共子空间中,在投影时综合考虑跨模态数据的对齐信息和语义类别标签,进而调整跨模态特征投影的学习过程。跨模态特征投影后,在公共子空间中基于语义相似度进行交叉检索,从而实现跨模态检索。PSCMR模型在Wikipedia(2)和IAPR-TC-12(3)两个数据集上分别取得了44.83%和75.05%的检索效果,在文本查询图像和图像查询文本两项检索任务上的表现均优于基线方法。本文主要有两个创新点:(1)现有的跨模态检索研究大多使用浅层特征或通用语料预训练的深度特征,这种方式并没有考虑到单词语义随着上下文语境发生变化的情况。本文尝试利用迁移学习技术,以大规模通用语料上预训练的模型为基础,用小数据集对模型进行微调从而得到当前数据集特有的深度特征,并将其应用到跨模态检索研究中;(2)本文提出了基于预定义子空间的跨模态检索模型,该模型使用预定义子空间的方式学习各模态数据特征到公共语义空间的非线性转换,使得模型学习目标更清晰,同时利用跨模态数据集的对齐信息进行各模态联合训练,弥补了学习过程丢失原始数据结构信息的缺陷。
暂无评论