随着计算机视觉领域的不断进步,图像分类技术日益成熟,并逐渐用于各个领域。图像分类需要收集大量的图片进行模型训练与优化,但图片的收集过程不可避免地带来噪声标签。为了应对这一挑战,鲁棒性分类方法应运而生。目前的鲁棒性分类方法中超参数的设置需要手动调节,对人力物力带来了大量的损耗。因此,提出了元超参数调节器MHA(Meta Hyperparameter Adjuster),采用双层嵌套循环优化的方法自适应学习噪声感知的超参数组合,并称为Meta-FPL算法(Pseudolabel adaptive learning algorithm based on meta learning)。此外,为了解决元训练阶段反向传播过程耗费GPU大量算力的问题,提出了选择激活元模型层策略SAML(Select the activation metamodel layer strategy),通过比较虚拟训练阶段反向传播的平均梯度与元梯度的大小,限制部分元模型层的更新,有效提升了模型的训练效率。在四个基准数据集和一个真实数据集上分别进行了实验,实验结果表明Meta-FPL算法的分类准确率较高,且在元训练阶段的反向传播过程训练时长缩短了79.52%,说明MetaFPL算法能在较短训练时间内有效提升分类测试准确率。
情感伪造音频通过改变语音的情感状态来达到欺骗目的,这对现有的伪造音频检测模型提出了新的挑战。提出一种基于深度情感嵌入和图注意力网络的情感伪造音频检测方法(Graph Attention Networks Using Deep Emotion Embedding,GADE),旨在...
详细信息
情感伪造音频通过改变语音的情感状态来达到欺骗目的,这对现有的伪造音频检测模型提出了新的挑战。提出一种基于深度情感嵌入和图注意力网络的情感伪造音频检测方法(Graph Attention Networks Using Deep Emotion Embedding,GADE),旨在提高对情感伪造音频的检测能力。GADE由深度情感嵌入提取前端和基于图注意力网络的后端2个部分组成。深度情感嵌入提取前端利用共注意力机制结合传统手工特征与深度特征,分别提取语音中时域和频域的深度情感信息;基于图注意力网络的后端能够有效融合时域和频域信息,提高模型对情感伪造音频的检测性能。在ASVspoof 2019、ASVspoof 2021和EmoFake数据集上与常见的伪造音频检测模型进行对比实验。结果表明:提出的GADE在未使用情感伪造音频训练的情况下,相比现有的先进伪造音频检测模型AASIST,对情感伪造音频的检测性能提高了22.8%;在使用情感伪造音频训练后,对情感伪造音频的检测性能提高了77.3%。
暂无评论