随着深度学习技术的迅速发展,语音合成在众多领域得到了广泛应用。对于基于少量语料的语音合成和说话人-情感语音转换的研究也在不断深入,利用语音合成技术通过少量目标说话人语料将所需文本合成为目标说话人风格的高自然度语音以及将中性情感的语音转换为其他说话人风格的指定情感的语音具有重要实用价值。
从基于传统参数合成实现语音合成到如今基于深度学习方法的实现,语音合成效果不断提升,但仍有一些不足,主要体现在以下几个方面:少量语料语音合成任务需要一个包含大量非目标说话人语料的辅助语料库,大大增加了模型训练成本;使用较少的语料训练基于深度学习的语音合成模型会导致模型泛化性较差,合成语音自然度较低。说话人-情感语音转换作为语音合成领域的一个重要任务,使用少量目标说话人情感语料进行模型训练同样会导致模型过拟合、泛化性较差,转换语音的自然度、目标说话人相似度、情感相似度均较低。基于上述问题,本文的研究内容包括:
(1)针对辅助语料库中包含太多冗余数据导致模型训练成本增加的问题,研究了中文和英文单说话人语料库中的音素和虚词的分布,提出了对比不同语料库压缩算法优劣的评价标准,并基于此标准提出算法SCAC(Statistical-based Compression Auxiliary Corpus)。通过删除语料库中的完整话语降低部分音素和虚词的冗余度,同时保证音素和虚词的种类没有减少,目标域的数据量没有减少。在多个语料库上进行了压缩实验,实验结果表明所提算法可以在大幅降低模型训练成本的同时不显著降低合成语音质量。
(2)提出了一个少量语料语音合成模型CMD-TTS(TTS model with Compressed corpus,Multi-level prosody modeling component and Denoising diffusion probabilistic models)。此模型引入了多层级韵律建模组件,通过多头自注意力模块捕获相邻词语间的依赖性,提高合成语音的自然度;通过去噪扩散概率模型对合成的梅尔谱图进行去噪处理,进一步提高合成语音质量,采用知识蒸馏对其进行训练,降低了模型采样时间,缓解了复杂的模型结构带来的训练成本。在中文和英文的多个语料库上进行了实验,结果表明此模型可以合成高质量语音。并且研究了多个生成对抗网络微调此模型,将目标域作为CVAE-GAN的条件加入到模型中,可以有效提高合成此目标域语音的自然度。
(3)针对使用少量语料训练目标说话人-情感语音转换模型会导致模型过拟合,转换语音说话人相似度和情感相似度均较低的问题,提出了一个融合大语言模型(Large Language Model,LLM)和预训练情感语音合成模型的数据增强方法。使用大语言模型生成带有目标情感的文本;同时使用目标说话人情感语料微调预训练情感语音合成模型,嵌入目标说话人风格,接着将生成的文本合成目标说话人风格的指定情感语音,以此增强目标说话人情感语料。提出了一个少量语料说话人-情感语音转换模型(Speaker-Emotion Voice Conversion model with Limited corpus,LSEVC),引入了多层级韵律建模组件,提高转换语音的自然度。使用增强数据和目标说话人情感语料共同训练LSEVC,然后使用质量较高的目标说话人情感语料对模型进行微调,增强转换语音的目标说话人相似度和情感相似度。实验结果表明,数据增强方法可以有效改善目标说话人相似度和情感相似度,基于预训练和微调的模型训练策略也可以在一定程度上提高这两个指标。
基于上述模型和方法,结合有声书制作领域的需求,设计并开发了基于少量语料的语音合成系统。此系统实现了对语料库的压缩、数据增强、模型训练、合成语音等功能。此系统的应用实现了用户自行训练模型并合成目标说话人风格的语音,对语音进行在线打分,为有声书的制作过程提供了有价值的参考意见,大大降低了有声书的制作成本。本文的研究成果为智能语音合成系统的进一步发展和应用提供了新的思路和方法。
暂无评论