相对于单一模态检索,跨模态检索能够实现不同模态间的相互检索,更加方便灵活,但多媒体数据的海量特征和多样性为跨模态检索带来巨大挑战。模态的不同意味着特征表示和特征分布的不同,不能直接进行比较。因此,如何在保证检索结果多样性和准确性的前提下,实现大规模的跨模态检索任务是目前多媒体检索领域值得研究的问题。本文针对图像和文本两种模态数据的多标签跨模态检索进行深入研究,利用基于深度学习的实值共同空间学习方法,缓解目前多标签跨模态方法中语义类别信息使用不充分、多模态数据相似性量化不足、共同表征相似性排序不友好等问题,并分别提出了对应的方法和策略。本文主要内容和创新如下:(1)提出一种基于图卷积的共同表征语义类别关系结构保留方法。利用图卷积网络从类别标签的关系图中获取多个分类器,这些分类器保留了类别依赖关系,并作用于多模态数据的共同表征,从而在标签空间中保持语义类别的关系结构,促使共同表征具有判别性,同时从语义类别的关系中挖掘样本间的潜在关联;(2)提出一种多模态数据相似性度量方法。基于类别标签的共享次数,对多模态数据间的相似度进行多级量化,并进一步融合视觉特征和文本高层语义特征的相似性,构建区分相似性程度的相似性矩阵;(3)提出一种基于成对约束的共同表征相似性排序方法。基于相似性矩阵设置动态边界阈值,在将模态数据的原始特征映射到共同空间中时,约束共同表征之间的距离根据相似性大小排序,从而保留共同表征的语义排序结构,促使检索结果能按相似性大小顺序返回;(4)在上述三点基础上,本文提出一种针对图像和文本两种模态的保留语义顺序结构的共同空间学习方法(Common Space Learning with Semantic Ranking Structure Preserving,SRSP),构建了深度跨模态检索框架。SRSP能够使共同表征在保留相似性排序结构的同时,又在具有语义判别性的基础上保留语义类别的关系结构。通过在MS COCO和NUS-WIDE两个跨模态检索数据集上的剥离实验和对比实验,证明了SRSP的有效性和优越性。
暂无评论