检索结果-内蒙古大学图书馆

中国图象图形学报 2025年第5期30卷 1257-1271页

作者：曾润浩李嘉梁卓奕深段海涵陈奇胡希平深圳北理莫斯科大学人工智能研究院粤港澳情感智能与普适计算联合实验室深圳大学机电与控制工程学院澳大利亚阿德莱德大学计算机科学学院

目的视频文本跨模态检索旨在从视频库或给定视频中检索出语义上与给定查询文本最相似的视频或视频片段，是视频理解的重要应用之一。现有方法主要聚焦于如何通过跨模态交互提高模态间的语义匹配，但忽略了目前数据集存在一个查询文本... 详细信息

目的视频文本跨模态检索旨在从视频库或给定视频中检索出语义上与给定查询文本最相似的视频或视频片段，是视频理解的重要应用之一。现有方法主要聚焦于如何通过跨模态交互提高模态间的语义匹配，但忽略了目前数据集存在一个查询文本对应多个视频片段或视频的问题。该问题在训练过程中可能导致模型混淆，制约模型性能。为此，提出一种大语言模型引导的视频检索数据迭代优化方法。方法通过视觉文本相似度定位出数据集中存在一对多问题的查询文本及对应视频，并提取视频中未被查询文本所描述的对象、详细外观、颜色属性等细粒度信息。将这些信息与原查询文本输入到大语言模型中总结优化为更细粒度的查询文本。通过基于视频文本语义关联的迭代条件判断，自动选择优化当前提示并进行下一轮优化或退出优化过程，从而不断优化查询文本。将优化后的数据用于视频文本跨模态检索模型的训练。结果在视频片段检索任务上，4种神经网络模型在使用了本文方法优化后的Charades文本时序标注（charades-sentence temporal annotations,Charades-STA）数据集进行训练，在交并比（intersection over union, IoU）为0.5时，首一召回率（Recall@Top1,R@1）平均提升2.42%，在基于查询的视频高光时刻检测（query-based video highlights,QVHighlights）数据集上，2种神经网络模型平均提升3.42%。在视频检索中，2种神经网络模型在微软视频文本检索（Microsoft research video to text,MSR-VTT）数据集的R@1指标上平均提升1.4%。结论提出的大语言模型引导的视频检索数据迭代优化方法，缓解了数据集中存在的一对多问题，使模型性能显著提升。

关键词：视频理解跨模态检索跨模态特征对齐大语言模型(LLM) 数据优化

来源：评论

学校读者我要写书评

暂无评论

基于图像和特征联合优化的跨模态行人重识别研究

引用

荆楚理工学院学报 2023年第2期38卷 9-17页

作者：张辉刘世洪钟武武汉迈力特通信有限公司湖北武汉430075 重庆金美通信有限责任公司重庆400030

跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像... 详细信息

跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像卷积生成器对可见光图像进行增广,采用色彩抖动方式对红外图像进行增广,并使用正样本优化轻量级异构图像卷积生成器来约束损失。在此基础上,使用两个模态分类器和跨模态特征对齐损失作为指导,不断学习获得模态共享的特征。在两个数据集上的大量实验表明,我们的方法具有优异的性能,在SYSU-MM01和RegDB数据集上分别达到了rank1/mAP 57.82%/54.35%和80.39%/75.05%的精度。

关键词：跨模态行人重识别模态差异异质图像增广跨模态特征对齐

来源：评论

学校读者我要写书评

暂无评论

从视觉到文本:图像描述生成的研究进展综述

引用

中文信息学报 2020年第7期34卷 19-29页

作者：魏忠钰范智昊王瑞泽承怡菁赵王榕黄萱菁复旦大学大数据学院上海200433 复旦大学工程与应用技术研究院上海200433 复旦大学计算机科学与技术学院上海200433

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像... 详细信息

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

关键词：图像描述生成跨模态特征对齐文献综述

来源：评论

学校读者我要写书评

暂无评论

面向可见光和红外的跨模态行人重识别方法研究

面向可见光和红外的跨模态行人重识别方法研究

引用

作者：王宇晖中南民族大学

学位级别：硕士

随着深度神经网络的发展、城市视频监控系统的普及和监控网络的完善,行人重识别(Person Re-identification,Re ID)技术逐渐成为近年来计算机视觉领域的热门研究课题,在智能视频监控和安防领域发挥着越来越重要的作用。传统行人重识别技... 详细信息

随着深度神经网络的发展、城市视频监控系统的普及和监控网络的完善,行人重识别(Person Re-identification,Re ID)技术逐渐成为近年来计算机视觉领域的热门研究课题,在智能视频监控和安防领域发挥着越来越重要的作用。传统行人重识别技术只适用于白天场景下的跨可见光摄像头行人匹配,而跨模态行人重识别(Cross-Modality Re ID)能够在白天可见光模态和夜晚红外模态之间跨模态地匹配行人,跨模态行人重识别填补了传统单模态行人重识别的应用场景,在传统行人重识别的基础上,实现了全天候二十四小时的行人重识别。在实际应用场景下,由于可见光和红外摄像头捕获的彩色和红外行人图像高度异构带来的模态差异,使得跨模态行人重识别技术面临着巨大的挑战。因此,本文针对可见光、红外跨模态所带来的模态差异,从图像层面和特征层面分别对模态差异进行处理,以缓解其对跨模态行人重识别任务带来的负面影响。本文的主要工作如下:(1)针对图像层面可见光、红外行人图像的外观模态差异和现有跨模态数据集样本不足的问题,提出了基于双流网络的异质图像增广方法(Heterogeneous Image Augmentation,HIA)。本文通过设计的轻量级异质图像卷积生成器将可见光图像转化为近似红外的新样本,并对红外图像进行色彩抖动以模拟实际场景中的光照变化。将原始图像和生成图像一起输入到网络中,在身份分类损失和批次难样本三元组损失的基础上,使用设计的基于异质图像的正样本对约束损失(Positive Sample Pair Constraint Loss),以异质图像卷积生成器生成的近似红外样本为锚点,约束锚点与其他正样本之间的距离,通过梯度反向传播来优化生成器。基于双流网络的异质图像增广方法丰富了训练样本,使得网络提取到的不同模态下的行人特征能够同时具备模态共性信息和特定于模态的信息,有效地减少了模态差异。(2)针对特征层面不同模态的行人特征存在较大模态差异的问题,在基于双流网络的异质图像增广方法的基础上,进一步提出了基于模态分类的跨模态特征对齐方法(Cross-modality Feature Alignment,CFA)。该方法设计了一种模态特征对齐模块,旨在引导网络学习不同模态特征的共性信息。该模块包含两个模态分类器,通过预构建的模态标签,对不同模态特征进行二分类。随后在特征网络训练中,利用设计的跨模态特征对齐损失将可见光/红外模态特征分类为相反模态。在网络训练过程中,模态分类器与特征网络交替更新参数,使得不同模态行人特征在高维特征空间内具有更多共性。结合使用图像和特征层面两种方法,端到端地进行跨模态行人重识别,本文提出的方法在SYSU-MM01数据集上达到了rank-1 57.82%和m AP 54.35%,在Reg DB数据集上达到了rank-1 80.39%和m AP 75.05%的精度,证明了方法的有效性。

关键词：跨模态行人重识别模态差异异质图像增广跨模态特征对齐

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：