仇恨模因检测是一项具有挑战性的多模态任务,需要模型理解视觉与语言中的隐含语义,并进行跨模态理解交互。针对中文领域的仇恨模因检测任务,本文构建了一个数据集CHmemes,并设计了一个基于CLIP(contrastive language-image pre-training)的情感增强Transformer模型(E2TC,emotion-enhanced Transformer model based on CLIP)作为基线模型。该模型利用图像和文本中的情感信息来增强从CLIP中提取到的特征,然后结合图像中与仇恨相关的人物属性信息以提高模型对于图像中仇恨内容的关注度。最后,采用图像描述作为监督机制以防止模型过拟合。所提出的E2TC模型在CHmemes数据集上以77.67%的AUROC值和72.71%的准确率超越了多个对比模型,验证了情感特征和图像属性信息对于仇恨模因检测的重要性。
暂无评论