咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图信号处理的多通道语音增强技术研究 收藏
基于图信号处理的多通道语音增强技术研究

基于图信号处理的多通道语音增强技术研究

作     者:张鹏程 

作者单位:南京邮电大学 

学位级别:硕士

导师姓名:杨震

授予年度:2023年

学科分类:0711[理学-系统科学] 07[理学] 08[工学] 080401[工学-精密仪器及机械] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 

主      题:图信号处理 图拓扑结构 后置滤波 联合图学习 多通道语音增强 波束形成 时延补偿 

摘      要:面对时下大数据时代奔涌的异构、多源的海量数据,图信号处理(Graph Signal Processing,GSP)作为一种新兴的数据处理技术,通过利用信号样值之间的关系构建图信号对数据结构进行建模,以获得更好的数据处理性能,引起了研究者的广泛关注。GSP通过定义权重矩阵,充分考虑了当前顶点和相邻顶点间的样值影响来描述顶点之间存在的潜在联系,这与传统的仅考虑了当前采样点的数字信号处理(Digital Signal Processing,DSP)的方法不同,利用的信息更充分。GSP主要研究的是图信号的表示、分析等理论和方法,通过图的方式揭示信号之间存在的联系,将传统的DSP理论扩展到不规则的图信号上,为处理复杂数据提供了有效手段,在图像处理、生物医学、机器学习、语音信号处理、无线传感网等领域得到了广泛应用。在声音信号处理领域,麦克风阵列在信号时域和频域维度上增加了空间域,能够有效利用麦克风阵列的空间信息,在改善语音质量方面有更高的潜能。此外,语音信号本身各采样点间也存在着普遍联系。利用麦克风阵列的空间信息和语音样点间拓扑结构关系也较为容易地完成诸如声源定位、声源分离、去混响、声源跟踪等问题处理。在复杂环境下,基于麦克风阵列设计的多通道语音增强算法具有更好的性能,可以运用到对语音通信质量具有较高要求的场景中,如移动通信、助听设备、会场环境等。鉴于此,本文尝试研究基于图信号处理的多通道语音增强技术,提高噪声抑制性能和算法的鲁棒性。本文所作的主要工作与创新如下:(1)本文结合图信号处理与波束形成,提出了一种新的图后置滤波(Graph Post-Filtering,GPF)方法,来实现多通道语音信号增强。首先,提出了多阶自旋的图拓扑结构来构建语音图信号。然后,针对复杂散射噪声场下经典维纳后置滤波(Wiener Post-Filtering,WPF)方法的局限性,结合波束形成提出了一种新的图后置滤波方法,基于输入各路语音图信号的自相关和互相关功率谱密度,推导出增益函数,进而预测源语音信号的图频谱。实验结果表明,所提出的GPF方法在信噪比(Signal-to-Noise Ratio,SNR)和主观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)方面,性能均要优于传统的WPF方法。另外,实验结果也表明,各路信号时延补偿偏差会影响基于GPF的多通道语音增强性能。(2)考虑到通道间存在的空间关系影响着其降噪效果,图信号处理可以捕获该潜在关系,若直接采用其空间物理分布图,无法实时反映其时变特性,因此本文提出了一种基于联合图学习的多通道语音增强方法。首先,提出一种联合时间-空间图学习方法,以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标,优化阵列空间图和语音帧内图。基于学习的空间图和帧内图,构建多通道语音信号的时间-空间联合图。在此基础上,将多通道语音图信号进行联合图傅里叶变换,进而采用固定波束形成(Fixed Beam Forming,FBF)方法进行增强。实验结果表明,与传统的FBF方法相比,所提出的基于联合图学习的FBF(Joint Graph Learning based FBF,JGL-FBF)方法显著提升了增强语音的SNR和PESQ。另外,实验结果也表明,JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分