版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:武汉轻工大学数学与计算机学院武汉430048
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2024年第44卷第4期
页 面:1317-1324页
基 金:湖北省教育厅科学研究计划重点项目(D20201601) 武汉工程大学智能机器人湖北省重点实验室开放基金资助项目(HBIR202101)
主 题:语音增强 复数频谱映射 膨胀卷积 门控机制 注意力机制
摘 要:上下文信息的使用在语音增强任务中具有重要作用。针对全局语音利用不充分的问题,提出一种用于复数频谱映射的门控膨胀卷积循环网络(GDCRN)。GDCRN包含编码器、门控时间卷积模块(GTCM)和解码器这3部分,编码器和解码器是非对称的网络结构。首先,编码器利用门控膨胀卷积模块(GDCM)扩大感受野,处理特征;其次,使用GTCM捕获更长的上下文信息,并选择性传递特征;最后,解码器使用结合门控线性单元(GLU)的反卷积,反卷积与编码器中对应层的卷积层使用跳跃连接,并引入通道时频注意力(CTFA)机制。实验结果表明,相较于时间卷积神经网络(TCNN)、门控卷积循环网络(GCRN)等网络,所提网络的参数量和训练时间更少,客观语音质量评估(PESQ)和短时客观可懂度(STOI)都有显著改善,最高可提升0.2589和4.67个百分点,具有更好的增强效果与更强的泛化能力。