咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于并行卷积和双重注意力机制的说话人识别 收藏

基于并行卷积和双重注意力机制的说话人识别

Speaker recognition based on parallel convolution and dual attention mechanism

作     者:陶佳佳 赵永钢 华杭波 孔明 梁晓瑜 TAO Jiajia;ZHAO Yonggang;HUA Hangbo;KONG Ming;LIANG Xiaoyu

作者机构:中国计量大学计量测试工程学院浙江杭州310018 杭州市临平区质量计量监测中心浙江杭州311103 

出 版 物:《微电子学与计算机》 (Microelectronics & Computer)

年 卷 期:2025年第42卷第1期

页      面:1-8页

学科分类:0711[理学-系统科学] 07[理学] 

基  金:国家市场监督管理总局技术保障专项(2022YJ21) 浙江省市场监督管理局科技计划(ZC2023057) 

主  题:说话人识别 并行连接 注意力机制 多场景数据集 

摘      要:为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组的思想,通过在残差块构建多分支并行连接,获取多层次特征。其次,注意力模块的改进是利用通道注意力和空间注意力两种机制,对特征的不同位置进行注意力加权,便于模型自适应地选择和强调特征,捕获全局特征和局部关键信息。然后,使用Sub-center loss函数计算损失,应对多变化特征。最后,在大型的中文多场景数据集CN-Celeb上评估模型的有效性并选取数据集的六种单一场景测试说话人识别系统。实验结果表明:与ResNet34模型和ECAPA-TDNN模型相比,EER分别降低了6.03%和5.57%,minDCF分别降低了7.31%和7.02%;6种单一场景测试结果的均值低于测试集结果,且在“drama和“speech场景下表现优异,EER最低仅有4.48%,minDCF最低为0.2322。说明该方法具有强大的优越性和适应性,能够针对不同场景进行有效识别,从而提高说话人识别准确率和鲁棒性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分