咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >细粒度图像分类上Vision Transformer的发展综... 收藏

细粒度图像分类上Vision Transformer的发展综述

Survey of Vision Transformer in Fine-Grained Image Classification

作     者:孙露露 刘建平 王健 邢嘉璐 张越 王晨阳 SUN Lulu;LIU Jianping;WANG Jian;XING Jialu;ZHANG Yue;WANG Chenyang

作者机构:北方民族大学计算机科学与工程学院银川750021 北方民族大学图像图形智能处理国家民委重点实验室银川750021 中国农业科学院农业信息研究所北京100081 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2024年第60卷第10期

页      面:30-46页

核心收录:

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:宁夏重点研发计划(引才专项)(2022BSB03044) 宁夏自然科学基金(2021AAC03205) 北方民族大学科研启动金项目(2020KYQD37) 北方民族大学研究生创新项目(YCX23168) 

主  题:细粒度图像分类 Vision Transformer 特征提取 特征关系构建 特征注意 特征增强 

摘      要:细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分