Non-Autoregressive Neural Text-to-Speech


作者:Kainan Peng∗ 1 Wei Ping
单位:百度美国研究院
会议:2020 ICML

abstract

提出一个非自回归的ParaNet(全卷积)完成TTS ,相比deep voice3提速46.7x,生成语音质量相当。通过不断改善layer-by-layer模式的attention实现对齐。用基于VAE结构的方法训练基于inverse autoregressive flow (IAF) 的parallel vocoder,从而实现一次前向完成TTS整个过程。

1. introduction

本文的主要贡献在于:

  • 提出ParaNet,非自回归的TTS模型,text-to-speech,全卷积的结构,实现加速;
  • ParaNet从自回归的TTS结构中提取attention,然后通过layer-by-layer manner迭代的重新定义对齐,稳定性比deep voice3更好,因为没有teacher-force training和自回归推理的不匹配问题。
  • 实用一个parallel neural vocoder,实现整个过程的并行化。parallel neural vocoder包括 distilled IAF vocoder和Wave- Glow ,本文想要实现training IAF vocoder without distillation,提出WaveVAE的方案,可以通过VAE从头开始训练而不是像wavenet还需要蒸馏。

3. Text-to-spectrogram model

3.2. Non-autoregressive architecture

  1. Non-autoregressive decoder: 没有自回归生成的限制,decoder中移除了因果卷积,可以利用未来的信息用于log-mel spec的生成。添加L1 loss预测log-linear spec。移除开头1*1 的卷积,因为decoder中没有自回归,不再输入log-mel spec。
  2. No converter:非自回归的结构移除了DV3中的non-causal converter。DV3 中使用non-causal converter的主要原因是:根据非因果卷积提供的双向上下文信息改进解码器预测。

3.3. Parallel attention mechanism

之前TTS中有效的对齐,比如location sensitive attention等,都是基于自回归的对齐,需要基于之前的decoder step 计算累计误差;

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/118737794