语音合成作为人机交互中重要的一环,引起了大家的广泛关注与研究。尽管现在的神经语音合成技术已经达到了接近人声的标准,但是丰富的应用场景也对语音合成技术提出了新的挑战。比如除了声音的清晰度与自然度,语音合成模型是否能够合成丰富多样、可定制风格、自适应的语音,是否能减少预处理过程和训练数据。针对以上存在的问题,本文开展相关研究,所做的主要工作如下:(1)为了提高语音合成的可定制性和自适应性,本文提出了基于自适应实例归一化的可定制语音合成模型Ada Style Speech。该模型使用一个梅尔频谱编码提取参考梅尔频谱的风格特征向量,并采用自适应实例归一化的方式与音素嵌入序列编码后向量进行融合,经解码后就能合成与参考梅尔频谱风格特征相似的语音。该模型不仅能够完成文本和语音特征的解耦和自适应,即文本和参考语音可以是任意的而不需要保证文本和参考语音的内容一致,而且该模型的训练阶段相较于其它语音合成模型需要更少的标记数据因而简化了数据预处理流程。(2)为了增加语音合成模型生成语音的丰富性和多样性,本文提出了基于风格互信息和生成对抗网络的多风格语音合成模型Ada Gan Speech。该模型使用一个非线性变换模块将输入的高斯噪声映射到语音特征空间中,并使用自适应实例归一化方法将特征空间的隐向量与音素嵌入序列编码后的向量进行融合,经解码后根据不同的高斯噪声就能生成不同风格的语音。在训练过程中,本文通过引入无监督训练模块MINE和GAN来提高生成语音的质量和多样性。由于该模型的输入不需要参考梅尔频谱,因此在无参考语音的情况下也能够通过不同的高斯噪声合成丰富多样的语音。本文通过在公开数据集AISHELL3上进行模型训练与评估。Ada Style Speech的实验结果表明只需要几秒钟的参考语音数据,就可以完成十分逼真的定制化语音合成,而且在合成语音的质量和速度上也可以媲美当前最先进的模型。Ada Gan Speech的实验结果表明该模型在无参考语音的情况下也能够合成丰富多样的语音,且在合成速度也优于其他基线模型。
暂无评论