随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网络各自生成对应模态的哈希码,难以获得更加有效的哈希码,无法进一步减小不同模态数据之间的模态鸿沟.为了更好地提高跨模态哈希检索的性能,本文提出了一种基于迁移知识的跨模态双重哈希(Cross-modal Dual Hashing based on Transfer Knowledge,CDHTK).CDHTK通过结合图像网络、知识迁移网络以及文本网络进行跨模态哈希检索任务.对于图像模态,CDHTK融合图像网络和知识迁移网络各自生成的哈希码,进而生成具有判别性的图像哈希码;对于文本模态,CDHTK融合文本网络和知识迁移网络各自生成的哈希码,从而生成有效的文本哈希码.CDHTK通过采用预测标签的交叉熵损失、生成哈希码的联合三元组量化损失以及迁移知识的差分损失来共同优化哈希码的生成过程,从而提高模型的检索效果,在2个常用的数据集(IAPR TC-12,MIR-Flickr 25K)上进行的实验验证了CDHTK的有效性,比当前最先进的跨模态哈希方法(Adaptive Label correlation based asymm Etric Cross-modal Hashing,ALECH)分别高出6.82%和5.13%.
针对雨雾等复杂天气下无人机图像质量下降导致目标检测效果不佳的问题,提出基于上下文引导和提示学习的目标检测算法CGP-YOLO(context-guided and prompt-based YOLOv8)。构建一个多任务联合学习的检测网络,通过双分支结构达到平衡图像...
详细信息
针对雨雾等复杂天气下无人机图像质量下降导致目标检测效果不佳的问题,提出基于上下文引导和提示学习的目标检测算法CGP-YOLO(context-guided and prompt-based YOLOv8)。构建一个多任务联合学习的检测网络,通过双分支结构达到平衡图像检测和恢复的任务。提出基于提示学习的跨层注意力加权图像去噪分支,指导网络利用退化提示重构清晰的图像;模型主干设计基于上下文的残差采样模块,集成卷积注意力机制,综合目标的局部和全局信息;采用可分离大核多尺度特征提取模块,处理网络多尺度特征;引入小目标的专用检测头,增强小目标的检测精度。实验结果表明,在参数量仅为基线模型60%的情况下,该模型的检测精度提高了2.4个百分点,平均精度(mAP)提高了2.04个百分点,模型检测效果优于其他经典模型,具备卓越的性能。
暂无评论