咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向非遗美术图像分类的提示学习方法 收藏

面向非遗美术图像分类的提示学习方法

Research on a prompt learning method for intangible cultural heritage art image classification

作     者:张秦瑜 刘鑫达 鲁倬铭 周明全 ZHANG Qinyu;LIU Xinda;LU Zhuoming;ZHOU Mingquan

作者机构:西北大学文化遗产数字化国家地方联合工程研究中心陕西西安710127 西北大学信息科学与技术学院陕西西安710127 加州戴维斯大学文理学院美国戴维斯95616 北京师范大学教育部虚拟现实应用工程研究中心北京100875 

出 版 物:《西北大学学报(自然科学版)》 (Journal of Northwest University(Natural Science Edition))

年 卷 期:2025年第55卷第1期

页      面:106-117页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:虚拟现实技术与系统全国重点实验室(北京航空航天大学)开放课题基金(VRLAB2024C02) 文化和旅游部重点实验室项目(1222000812、cr2021K01) 西安市科技计划社会发展科技创新示范项目(2024JH-CXSF-0014) 国家自然科学基金(62271393) 

主  题:非物质文化遗产 图像分类 上下文优化 注意力机制 

摘      要:针对中国非物质文化遗产美术作品分类中处理效率低、数据复杂等问题,提出了一种基于预训练视觉语言大模型的上下文提示微调策略,以提升小样本情况下的分类性能并应对当前任务的挑战。该方法通过引入可学习的上下文优化提示(软提示),使模型能够在少量样本条件下快速适应下游分类任务,从而有效缩短训练时间并提升收敛速度。具体而言,利用注意力机制,将由软提示生成的文本特征与预训练视觉语言模型的原始特征相结合,并通过对比损失优化嵌入表示。这一机制减少了不同特征之间的嵌入差异,避免了模型对已知类别的过度拟合,提升了在未见类别上的泛化能力。此外,保留原始特征信息帮助模型避免训练过程中遗忘基础知识,确保即便在小样本条件下,模型仍能保持较高的分类准确率。实验结果表明,所提出方法在非遗美术图像分类任务中的准确率提升了1.79%,泛化识别能力提升了10.4%,同时具备较低的计算成本。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分