针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank + DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。
暂无评论