检索结果-内蒙古大学图书馆

计算机工程 2025年

作者：刘海军付晓东昆明理工大学信息工程与自动化学院昆明理工大学云南省计算机技术应用重点实验室

现实世界的数据通常遵循长尾分布，假设全局数据分布平衡的联邦学习方法难以对长尾数据中的尾类数据进行准确分类。为此，现有研究为全局模型重新训练一个平衡的分类器来缓解长尾数据带来的影响，但未考虑平衡模型的特征提取器和如何让... 详细信息

现实世界的数据通常遵循长尾分布，假设全局数据分布平衡的联邦学习方法难以对长尾数据中的尾类数据进行准确分类。为此，现有研究为全局模型重新训练一个平衡的分类器来缓解长尾数据带来的影响，但未考虑平衡模型的特征提取器和如何让模型的特征提取器学习高质量的图像特征，导致全局模型性能不佳。因而为了使模型在特征学习阶段没有偏见地学习高质量的图像特征，文中提出了一种结合旋转自监督和对比语言-图像预训练（Contrastive Language-Image Pre-training，CLIP）指导的联邦学习，通过使用旋转自监督学习来指导本地客户端地训练，减少长尾数据对客户端模型造成的影响并使模型更高质量地学习图像中的特征，同时，利用CLIP对模型的正常训练以及旋转后的图片进行指导，将CLIP中丰富的知识转移到客户端模型中，进一步提升特征提取器的性能。在不同长尾分布下的CIFAR-10数据集和CIFAR-100数据集上对该方法进行了测试，并与其他联邦学习方法进行对比，实验结果表明，与现有方法相比，本文的方法可将全局模型的分类准确率提升2.35%到4.72%。

关键词：联邦学习长尾分布数据异构自监督学习对比语言-图像预训练

来源：评论

学校读者我要写书评

暂无评论

基于特征增强和模态交互的视频异常行为检测

引用

计算机辅助设计与图形学学报 2025年第3期37卷 407-413页

作者：吴沛宸李文斌郭放刘钊中国人民公安大学信息网络安全学院北京100038 中国人民公安大学网络空间安全与法治协同创新中心北京100038

对比语言-图像预训练模型作为一种基于多模态对比训练的神经网络,通过预训练大量的语言-图像对提取具有判别性的图像特征.为了关注连续帧之间的时序关系,消除不同模态特征之间的信息分布差异,提出一种基于特征增强和模态交互的视频异常... 详细信息

对比语言-图像预训练模型作为一种基于多模态对比训练的神经网络,通过预训练大量的语言-图像对提取具有判别性的图像特征.为了关注连续帧之间的时序关系,消除不同模态特征之间的信息分布差异,提出一种基于特征增强和模态交互的视频异常行为检测算法.首先针对对比语言-图像预训练模型在视频连续帧特征提取阶段时间依赖性差的问题,使用局部和全局时间适配器构建时间相关性增强模块,分别在局部和全局注意力层关注时序信息;然后针对不同模态特征存在域间信息差异的问题,设计一种基于窗口分区移位的多模态特征交互模块,通过滑动窗口控制特征内部交互,消除信息分布差异;最后通过对齐视觉特征和文本特征,得到帧级异常置信度.在UCF-Crime数据集上,所提算法取得87.20%的检测准确率,验证了其有效性.

关键词：对比语言-图像预训练视频异常行为检测时间相关性特征增强模态交互

来源：评论

学校读者我要写书评

暂无评论

基于CLIP增强细粒度特征的换装行人重识别方法

引用

计算机工程 2025年第4期51卷 293-302页

作者：耿霞汪尧江苏大学计算机科学与通信工程学院江苏镇江212000

换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)... 详细信息

换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)在该任务的应用,提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系,然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域,进而擦除该部分特征,使网络关注有效的非服装特征,显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明,该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%,与AIM、CAL等算法相比,能够提取到更细粒度的特征,在多项指标上有明显提升。

关键词：换装行人重识别对比语言-图像预训练特征保留策略注意力机制语义解析

来源：评论

学校读者我要写书评

暂无评论

基于Transformer的超高清视频质量评估方法研究

基于Transformer的超高清视频质量评估方法研究

引用

作者：邢凤闯广州大学

学位级别：博士

视频作为一种信息载体,因其丰富且生动的内容使其在日常生活中得到广泛应用。然而,随着视频数量的急剧增长,许多低质量的视频也不断涌入人们的视野,大大降低了用户的观看体验。视频质量评估(Video Quality Assessment,VQA)系统能有效估... 详细信息

视频作为一种信息载体,因其丰富且生动的内容使其在日常生活中得到广泛应用。然而,随着视频数量的急剧增长,许多低质量的视频也不断涌入人们的视野,大大降低了用户的观看体验。视频质量评估(Video Quality Assessment,VQA)系统能有效估计视频的质量,并通过质量信息来优化视频传输、存储和编码等,提高用户的观看体验。随着5G通信技术和计算机技术的蓬勃发展,超高清(Ultra High Definition,UHD)视频逐渐成为各类视频平台的主流内容。UHD视频凭借其超高分辨率和极高帧率的特点,大幅提升了用户的视觉体验。然而,这种超高分辨率和帧率也给基于卷积神经网络的VQA方法带来了新的挑战,尤其是计算复杂度的增加和长期依赖特征的增长,使得UHD视频质量评估变得更加困难。 Transformer架构在自然语言处理和计算机视觉任务中展现出了出色的性能。UHD视频数据具有与自然语言相似的长期依赖特性,并且视频帧还具有与图像相似的空间结构。因此,本文主要研究基于Transformer的无参考视频质量评估方法,探索该方法在处理UHD视频数据时的性能表现。本文的主要工作涵盖以下三个方面: (1)由于缺乏UHD视频质量评估数据集,本文构造了一个全新的4K超高清视频质量评价数据集DVL2021,用于4K超高清视频质量评估的研究。该数据集一共包括206个(后期扩展为643个)野生4K超高清视频样本。每个序列以每秒50帧(fps)的速度捕获,并以原始的10位4:2:0 YUV格式存储,持续时间为10秒。根据ITU-RBT.500-13提供的电视图像质量主观评价方法,招募了32名评估者参与了主观质量测试的过程,年龄从十八岁到六十四岁不等(平均年龄为32.7岁)。DVL2021具有以下优点:1)视频内容丰富多样,2)拍摄相机类型繁多,3)真实失真类型复杂,4)时空信息广泛分布,5)主观评分(Mean Opinion Score,MOS)广泛分布。此外,本文通过DVL2021评估五种主流VQA方法来进行基准实验。这些方法的基线结果的SROCC系数(Spearman Rank Order Correlation Coefficient,SROCC)全部高于0.75,说明了DVL2021达到了较高的可靠度。 (2)针对UHD视频具有超大分辨率(4K的分辨率)和长时间依赖特性(50fps的帧率)的困难,本文尝试使用Transformer架构来执行视频质量评估任务,提出了一种新颖的用于VQA任务的时空注意力网络,命名为Star VQA。Star VQA通过交替级联的时空注意力构建了一个基于Transformer的网络模型。为了适应Transformer架构的训练,在Star VQA中,设计了一个矢量化回归损失函数,它将主观评分(MOS)编码为概率向量,并嵌入一个特定的向量化标记作为可学习变量。为了捕捉视频序列的长时空依赖关系,Star VQA将每个补丁的时空位置信息编码为Transformer的输入,从而获取视频的空时质量特征。另外针对视频质量评估样本量较少,且Transformer的训练需要大量数据的问题,本文设计了协同训练的范式,基于Star VQA提出了一种针对VQA任务的协同训练的时空注意力网络,称为Star VQA+,它使用图像分类数据集Image Net和VQA视频数据集协同训练空间和时间注意力权重的方法。在包括LIVE-Qualcomm、LIVE-VQC、Ko NVi D-1k、You Tobe-UGC、LSVQ、LSVQ-1080p和DVL2021在内的野生视频数据集设计了多个实验。实验结果表明,本文提出的Star VQA+优于之前最先进的方法。 (3)针对预训练的过程中源域(图像分类任务)和目标域(VQA任务)不一致的困难,本文尝试利用对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)方式处理VQA任务。在从大规模网络数据中学习视觉-语言表示时,CLIP在广泛的视觉任务中展现出了出色的泛化能力。然而,将其应用于广泛研究的VQA任务仍然是一个未解决的问题。本文提出了一种基于CLIP的方法用于解决VQA问题,命名为CLIPVQA。具体而言,首先设计了一种有效的视频帧感知范式,旨在提取视频帧之间丰富的时空质量和内容信息。然后,利用自注意力机制充分整合时空质量特征,得到视频级的质量表示。为了利用视频的质量语言描述进行监督,开发了一个基于CLIP的语言嵌入编码器,然后通过交叉注意力模块将其与生成的内容信息完全聚合,以产生视频-语言表示。最后,将视频级质量和视频-语言表示融合在一起进行最终的视频质量预测,并采用矢量化回归损失进行高效的端到端优化。在九个野生视频数据集上进行了全面的实验,

关键词：无参考视频质量评估 Transformer 对比语言-图像预训练多模态融合

来源：评论

学校读者我要写书评

暂无评论

一种顾及空间语义的跨模态遥感影像检索技术

引用

中国电子科学研究院学报 2023年第4期18卷 328-335,385页

作者：金澄弋步荣曾志昊刘扬陈旭赵裴康栋西安测绘研究所陕西西安710000 航天恒星科技有限公司北京100080 武汉大学计算机学院湖北武汉430072

随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素... 详细信息

随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素检索提供了重要的模型支撑,但其在顾及空间语义关系等复杂跨模态检索任务上能力不足。本文提出了一种顾及空间语义关系的跨模态遥感影像检索技术,基于CLIP构建跨模态遥感影像检索模型GEOCLIP,通过对比学习方法训练,习得富含空间语义与开放信息的双模态语义对齐公共表示空间,特别针对遥感影像跨模态空间语义检索问题,引入遥感影像和文本表达中的空间关系提取,实现融合空间语义的跨模态检索。本文提出的顾及空间语义的跨模态遥感影像检索技术,在RSICD Dataset数据集上进行了验证,其R@1,R@5,R@10和mR指标均达到目前最优,其中平均召回率mR相较于CLIP提升了3.45%,相较于已公开发表的最优方法GaLR提升了77.22%。GEOCLIP在各种空间查询上的平均召回率mR全部优于CLIP,其中针对at、near、around的空间查询提升效果最大,分别为3.72%、8.85%、7.11%。

关键词：对比语言-图像预训练跨模态检索遥感影像空间语义

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：