版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:合肥工业大学计算机与信息学院安徽合肥230601 合肥工业大学工业安全与应急技术安徽省重点实验室安徽合肥230601 安徽省公安厅物证鉴定管理处安徽合肥230000
出 版 物:《应用科学学报》 (Journal of Applied Sciences)
年 卷 期:2024年第42卷第4期
页 面:709-722页
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:安徽省重点研究与开发计划(No.202004d07020011,No.202104d07020001) 广东省类脑智能计算重点实验室开放课题(No.GBL202117) 中央高校基本科研业务费专项资金项目(No.PA2021GDSK0073,No.PA2021GDSK0074,No.PA2022GDSK0037)资助
主 题:说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
摘 要:针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。