版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:中国计量大学计量测试工程学院浙江杭州310018 杭州市临平区质量计量监测中心浙江杭州311103
出 版 物:《微电子学与计算机》 (Microelectronics & Computer)
年 卷 期:2025年第42卷第1期
页 面:1-8页
基 金:国家市场监督管理总局技术保障专项(2022YJ21) 浙江省市场监督管理局科技计划(ZC2023057)
摘 要:为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组的思想,通过在残差块构建多分支并行连接,获取多层次特征。其次,注意力模块的改进是利用通道注意力和空间注意力两种机制,对特征的不同位置进行注意力加权,便于模型自适应地选择和强调特征,捕获全局特征和局部关键信息。然后,使用Sub-center loss函数计算损失,应对多变化特征。最后,在大型的中文多场景数据集CN-Celeb上评估模型的有效性并选取数据集的六种单一场景测试说话人识别系统。实验结果表明:与ResNet34模型和ECAPA-TDNN模型相比,EER分别降低了6.03%和5.57%,minDCF分别降低了7.31%和7.02%;6种单一场景测试结果的均值低于测试集结果,且在“drama和“speech场景下表现优异,EER最低仅有4.48%,minDCF最低为0.2322。说明该方法具有强大的优越性和适应性,能够针对不同场景进行有效识别,从而提高说话人识别准确率和鲁棒性。