多模态讽刺检测是在多模态场景下识别用户的讽刺言语。现有的多模态讽刺识别方法大多对编码之后的特征直接融合,并未关注图像和文本的深层特征以及图像和文本之间的交互。针对上述问题,本文提出基于图文交互和深层特征融合的多模态讽刺检测框架。首先,使用具有长文本能力的对比语言-图像预训练模型(Contrastive Language-Image Pre-training model with Long text capability,Long-CLIP),对图像和文本进行编码,获得图像和文本的特征表示,进一步引入跨模态注意力机制,建立图像和文本特征之间的交互表示;其次,利用多个卷积神经网络从不同角度分别获得图像和文本的深层特征表示,并利用Key_less Attention机制融合图像和文本的深层特征;最后,通过多层感知机实现多模态讽刺检测。在公开的数据集MMSD2.0上进行实验,实验结果表明所提出的方法与现有的最先进的基线模型相比,Acc和F1分别提升0.33%和0.15%,表明了图文交互及深层特征可以提升多模态讽刺检测的性能。
在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方法.针对未知类别信息的多类样本挖掘问题,提出了一种基于主动学习的模式类别挖掘模型(pattern class mining model based on active learning,PM_AL)来解决未知类别信息的模式类别挖掘问题.该模型通过衡量已得到的模式类别与未标记样本间的关系,引入样本差异度的方法来抽取最有价值样本,通过主动学习方式以较小的标记代价快速挖掘无标记样本所蕴含的可能模式类别,从而有助于将无类别标记的多分类问题转化成有类别标记的多分类问题.实验结果表明,PM_AL算法能够以较小的标记代价处理无类别信息的模式类别挖掘问题.
暂无评论