提出了一种融合集成学习与多模态大语言模型(Multimodal Large Language Models, MLLMs)的图文情感分析方法。针对图文情感分析中类别不平衡与跨模态情感不一致等关键挑战,设计了EMSAN(Ensemble Multimodal Sentiment Analysis Net...
详细信息
提出了一种融合集成学习与多模态大语言模型(Multimodal Large Language Models, MLLMs)的图文情感分析方法。针对图文情感分析中类别不平衡与跨模态情感不一致等关键挑战,设计了EMSAN(Ensemble Multimodal Sentiment Analysis Network)框架。该框架采用主辅模型结构,将在完整数据集上训练的主模型与在平衡子集上优化的辅助模型相结合,实现对各情感类别的精准识别。在特征学习方面,EMSAN采用两阶段策略增强情感特征:首先利用多模态大语言模型生成高质量的图像描述,缩小视觉与文本模态间的语义差距;其次引入一致性对比学习机制,通过对比文本和视觉特征的差异,强化跨模态情感的一致性表达,获得更为精细的特征。通过在平衡和不平衡数据集上的学习,EMSAN在保持数据自然分布的同时,有效缓解了类别不平衡问题。多个公共基准数据集上的实验结果表明,所提出的方法取得了显著的性能提升。
暂无评论