版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京邮电大学通信与信息工程学院江苏南京210003 南京邮电大学通信与网络技术国家地方联合工程研究中心江苏南京210003
出 版 物:《信号处理》 (Journal of Signal Processing)
年 卷 期:2025年第41卷第1期
页 面:161-173页
核心收录:
主 题:语音反欺骗 图注意力机制 单分类 对抗训练 多任务学习
摘 要:语音反欺骗任务旨在通过设计网络结构和学习算法来区分真实语音和欺骗语音,以提升语音系统安全性。本文提出了一种结合图注意力机制和对抗训练的语音反欺骗方法,以应对语音反欺骗任务中的挑战。具体地,基于说话人吸引子多中心单类(speaker attractor multi-center one-class, SAMO)学习算法,利用图信号处理(graph signal processing, GSP)理论,本文提出了采用图注意力网络(graph attention network, GAT)提取说话人吸引子中心的方法。通过引入注意力机制来聚合说话人特征表示,以计算出更具代表性的说话人吸引子中心,从而提高系统对真实语音和欺骗语音的区分能力。另外,考虑到当网络只学习到训练集中已知欺骗类型的特定欺骗伪影时,则分类网络可能无法有效应对未知类型的欺骗攻击。本文在反欺骗网络结构中引入欺骗类型分类对抗网络,通过特征表示学习模块和欺骗类型分类辅助网络的对抗训练,促使网络能够从不同类型的欺骗语音中学习到共同的欺骗伪影特征,从而提升系统对实际测试中未知类型欺骗语音的检测能力。在ASVspoof 2019 LA、CFAD和ASVspoof 2021 LA数据集上进行了实验,实验结果表明所提方法在性能上优于基线系统和其他对比系统。此外,本文还采用了t分布随机邻居嵌入(t-distributed stochastic neighbor embedding, t-SNE)和相似度矩阵热力图的可视化方法,直观展示了所提方法在准确区分真实语音和欺骗语音方面的优势,并验证了对抗训练技术在学习共同欺骗伪影特征方面的有效性。