随着音视频通讯和基于语音识别的人机交互系统在生活中有了越来越广泛的应用,实际环境中各种复杂的场景对语音增强技术提出了更高的要求。混响是常见的影响语音音质和可懂度的不利因素,也会影响盲源分离等算法以及语音识别系统的性能。如何提升语音增强系统在混响环境下的性能是实际应用中面临的难题。本文围绕混响环境下的语音增强问题,重点关注在线去混响算法、混响环境下的在线语音分离和基于深度神经网络的语音增强三个方面的问题。基于多通道线性预测(Multi-channel Linear Prediction,MCLP)的自适应算法是一种有效的去混响方式。而声源位置的突变是影响在线自适应去混响算法性能的不利因素。本文研究了基于RLS(Recursive Least Squares)算法和基于卡尔曼滤波的自适应MCLP去混响算法的追踪性能。基于滤波器系数相对变化量,本文针对基于RLS的自适应MCLP去混响算法设计了时变的时间遗忘因子,针对基于卡尔曼滤波的自适应MCLP去混响算法设计了一种重置机制,提升了RLS算法和卡尔曼滤波在声源位置发生突变的情形下的鲁棒性,并通过仿真和实验数据验证了改进算法的性能。盲源分离算法是一种从混合语音中获取目标信号的有效方式,然而混响通常会影响盲源分离算法的性能。本文研究了混响环境下基于微型双传声器系统的语音增强问题,设计了两个一阶心形差分波束用于获取混响中的语音信号,并在系统中增加基于MCLP的语音去混响算法,进一步提升盲源分离算法的性能。本文同时也提出了一种在线盲源分离和去混响的联合优化算法,并通过仿真验证了系统的有效性。基于深度神经网络的语音增强算法已经在特定的场景中表现出了优异的性能。时域语音分离网络是一种接收时域信号输入并输出时域信号的深度神经网络结构,能够实现较好的语音增强性能。本文关注基于深度神经网络的语音增强方法在高混响环境以及低信噪比下的性能,基于全卷积时域语音分离网络,提出了一种去混响和语音分离联合优化的网络结构以及针对在线语音增强的改进方案,并通过实验验证了它们的性能。
暂无评论