Abstract

在本文中，我们将变分自动编码器（VAE）引入端到端语音合成模型，以无监督的方式学习说话风格的潜在表示。通过VAE学习的样式表示具有良好的特性，例如解缠结，缩放和组合，这使得样式控制变得容易。在这种框架下，可以通过首先通过VAE的识别网络推断样式表示，然后将其输入到TTS网络中以指导样式合成语音来实现样式转移。为了避免训练中的Kullback-Leibler（KL）散度崩溃，采用了几种技术。最后，该模型在ABX样式转移偏好测试中表现出良好的样式控制性能，并且优于（GST）模型。
索引词-无监督学习，变体音频编码器，样式转换，语音合成

Introduction

直接从字符生成语音的端到端文本语音转换（TTS）模型近年来发展迅速，并获得了很高的语音质量[1-3]。尽管单一风格的TTS（通常是中性的说话风格）正接近人类专家录音的最高质量[1，3]，但对表达性语音合成的兴趣也在不断提高。最近，在该主题上还发表了许多有前途的作品，例如基于端到端TTS模型[4-6]在内部或交叉说话者中传递韵律和说话风格。
深度生成模型，例如变分自动编码器（VAE）[7]和生成对抗网络（GAN）[8]，是功能强大的体系结构，可以以无监督的方式学习复杂的分布。特别是，对潜在变量进行显式建模的VAE已成为最受欢迎的方法之一，并且在文本生成[9]，图像生成[10，11]和语音生成[12，13]任务上取得了显著成功。 VAE具有许多优点，例如学习解缠结的因子，在潜在表示之间平滑内插或连续采样，可以获得可解释的同伦[9]。
直观地，在语音生成中，说话人的潜伏状态（例如情感和意图）有助于韵律，情感或说话风格。为简单起见，此后我们将使用说话风格来表示这些与韵律相关的表达。潜在状态与VAE中的潜在变量起着非常相似的作用。因此，在本文中，我们打算将VAE引入到最先进的端到端语音合成模型Tacotron2 [1]中，以学习连续空间中说话人状态的潜在表示，并进一步控制语音合成中的说话风格。具体而言，可以容易地对解缠的潜变量施加直接操纵，从而控制说话风格。另一方面，通过变分推理，可以从参考音频中推断出说话风格的潜在表示，然后参考音频可以控制合成语音的风格。从而实现了从参考音频到合成语音的样式转换。最后但并非最不重要的一点是，在潜在分布的先验上直接采样可以生成许多具有各种说话风格的语音，这对于数据增强非常有用。综合评估表明该方法具有良好的性能。
我们已经知道Akuzawa等人的最新工作。文献[12]将自回归语音合成模型与VAE相结合，用于表达性语音合成。所提出的工作与Akuzawa的不同之处在于：1）他们的目标是合成表达语音，这是通过在推理阶段从潜在分布先验的直接采样中实现的，而我们的目标是通过直接控制合成语音的说话风格从参考音频中操纵潜在变量或变化推断； 2）拟议的工作是基于端到端TTS模型的，而Akuzawa则不是。
本文的其余部分安排如下：第2部分介绍了VAE模型，我们提出的模型架构以及解决KL散度崩溃问题的技巧。第3节介绍了实验结果。最后，本文将在第4节中总结。

Jackson王

发布了79 篇原创文章 · 获赞 44 · 访问量 2030

私信关注

端到端语音合成中用于样式控制和转移的学习隐式表示

Abstract

Introduction

猜你喜欢