版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:北方民族大学计算机科学与工程学院银川750021 北方民族大学图像图形智能处理国家民委重点实验室银川750021 中国农业科学院农业信息研究所北京100081
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2024年第60卷第10期
页 面:30-46页
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:宁夏重点研发计划(引才专项)(2022BSB03044) 宁夏自然科学基金(2021AAC03205) 北方民族大学科研启动金项目(2020KYQD37) 北方民族大学研究生创新项目(YCX23168)
主 题:细粒度图像分类 Vision Transformer 特征提取 特征关系构建 特征注意 特征增强
摘 要:细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。