-1. 说明

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS

DURIAN：告诉网络持续时间的多模态合成

比 Tacotron 晚一些的 Paper, 应该是更容易对齐的好, 希望训的也快

0. 摘要

在本文中，我们提出了一种通用且鲁棒的多模态合成系统，该系统可以产生很高的自然语言和面部表情同时出现。该系统的关键部分是持续时间知情注意力网络（DurIAN），一种自回归模型，其中已经显性的从持续时间模型推断出了输入文本和输出声学特征的 Alignment 的对应关系。这不同于现有的端到端注意力机制，并说明了各种不可避免的人工的工作在端对端语音合成系统，例如Tacotron中, 其实还是不能完全避免的。此外，DurIAN可用于生成高质量的面部表情，可与/不平行并行地与生成的语音同步语音和面部数据。为了提高语音生成的效率，我们还提出了一种多频段 WaveRNN模型之上的并行生成策略。Proposed Multi-band 多波段WaveRNN 有效地将总的计算复杂度从9.8 GFLOPS降低到3.6 GFLOPS，并且能够在单个CPU内核上生成的音频比实时速度快6倍。我们证明了DURIAN可以产生高度自然的语音，与当前最先进的端到端系统相提并论, 同时避免在这些系统中出现单词跳过/重复错误。最后，一个简单而有效的方法介绍了语音和面部表情表达能力的细粒度控制方法。

1. Introduction

传统语音合成方法，包括连接方法[1，2]和统计参数系统 [3，4，5]都是基于声学特征分析和综合的。这些方法仍主要用于由于它们在鲁棒性和效率方面的优势而在工业应用中发挥了重要作用。但是，这些方法存在以下缺点：生成语音的自然性较差。端到端方法[6、7、8、9、10、11]最近备受关注由于它们的综合结果具有明显更好的自然性，并且简化了培训流程。很遗憾，现有的端到端系统在生成语音时缺乏鲁棒性，因为它们会产生不可预测的伪像其中，在生成的语音中重复或跳过了源文本中的随机单词[7，11] esp。合成时域外文本。对于多模式合成任务，语音和面部表情之间的同步是另一个基于端到端的系统面临的挑战。语音和面部特征可以端对端成对生成模型，这种方法需要大量配对的语音和面部表情数据进行训练。这样的配对语音面部表情数据收集起来很昂贵，并且在所需的语音和虚拟场景下无法获得图片来自不同的来源

[1] A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, vol. 1, pp. 373–376, IEEE, 1996
[2] A. W. Black and P. A. Taylor, “Automatically clustering similar units for unit selection in speech synthesis.,” 1997.
[3] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, and T. Kitamura, “Speech parameter generation algorithms for hmm-based speech synthesis,” in 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100), vol. 3, pp. 1315–1318, IEEE, 2000.
[4] H. Zen, K. Tokuda, and A. W. Black, “Statistical parametric speech synthesis,” speech communication, vol. 51, no. 11, pp. 1039–1064, 2009.
[5] H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in 2013 ieee international conference on acoustics, speech and signal processing, pp. 7962–7966, IEEE, 2013
[6] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, et al., “Tacotron: Towards end-to-end speech synthesis,” arXiv preprint arXiv:1703.10135, 2017
[7] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4779–4783, IEEE, 2018
[8] N. Li, S. Liu, Y. Liu, S. Zhao, M. Liu, and M. Zhou, “Close to human quality tts with transformer,” arXiv preprint arXiv:1809.08895, 2018
[9] W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018
[10] J. Sotelo, S. Mehri, K. Kumar, J. F. Santos, K. Kastner, A. Courville, and Y. Bengio, “Char2wav: End-to-end speech synthesis,” 2017
[11] W. Ping, K. Peng, A. Gibiansky, S. O. Arik, A. Kannan, S. Narang, J. Raiman, and J. Miller, “Deep voice 3: Scaling text-to-speech with convolutional sequence learning,” arXiv preprint arXiv:1710.07654, 2017

和 FastSpeech 有些像, 但实际上, FastSpeech 是蒸馏, 通过蒸馏来模仿老师的 attention 效果, 它的上限是 Transformer TTS + 离散化 Phoneme Duration 的合并;

而 DuRIAN 是;结合 ForceAlignment 的记过作为信息, 然后采取 attention 去微调, 各司其职, 信息量也增多了, 多了一个具体的每一帧对应多少时间, 而不是简单的像 FastSpech 仅仅多了一个单调上升的信息

在本文中，我们提出了持续时间知悉网络（DurIAN），这是一种通用的多峰综合框架，产生高度自然，健壮的语音和面部表情1 。 DurIAN是传统参数系统和最新端到端系统的组合，可以在语音生成中同时实现自然性和鲁棒性. 这最近的端到端系统从多个角度超越了传统的参数系统，包括使用编码器以取代手动设计的语言功能，自动回归模型以解决预测问题过度平滑的问题，用神经声码器代替传统的源滤波器声码器以及一种注意机制进行端到端的培训和优化

我们的观察和分析表明，语音的不稳定性现有的端到端系统是由端到端注意力机制引起的。因此，DurlAN背后的核心思想用一种类似于参数系统中的对齐模型替换端到端注意力机制， 在保留现有端到端系统的其他进步的同时. 引入了 Aligment + Attention 的方式. Duration 模块的存在, 也可以很轻松的对接面部生成, 可以不用平行语料

本文的主要贡献如下：

1. 我们建议将Tacotron 2 [7]系统中的端到端注意力机制替换为传统参数系统中的模型。我们的经验表明，所提出的方法可以产生很高的自然语音与使用Tacotron 2产生的语音相当，同时Durian产生了语音更加健壮和稳定。注意, 并不是不用 Attention 了, 而是 Alignment 用传统的去做, 后面的还有一个 attention 用来调整
2. 我们使用跳过编码器结构 (Skip Encoder) 对音素序列表示和层次结构中文韵律中的韵律结构，用于改善DurAIN系统在域外的泛化中文语音合成任务中的处理
3. 我们提出了一种在监督设置下简单但有效的细粒度样式控制方法，而无需训练过程中的细粒度标签，是对传统多样式训练的扩展t (he conventional multi-style training)
4. 我们描述了一种多频带同步并行WaveRNN算法 (a multi-band synchronized parallel WaveRNN)，以减少最初的WaveRNN模型[14]，并加快了单CPU上的推理过程

2 DurIAN

从跳过编码器输出的隐藏状态的长度N与输入序列的长度N不同，因为与韵律边界相关联的隐藏状态被从跳过编码器的最终输出中排除
这里的状态扩展基本上是根据给定音素序列的持续时间依次复制隐藏状态。在训练期间，在给定输入音素序列和目标声学特征y1：T的情况下，通过强制对齐获得每个音素的持续时间。在综合阶段，我们利用持续时间模型预测的音素持续时间。对齐模型中扩展的隐藏状态可以与目标声帧精确配对，以训练解码器网络自动预测每个声帧

2.1. Skip Encoder

注: 其实需要考虑到 Sil 对应到 Force Alignment 的帧

跳过编码器的主要目的是对音素序列的表示以及隐藏状态下的层次韵律结构进行编码。韵律结构是汉语语音合成任务中提高域外文本语音合成系统泛化能力的重要组成部分。为了生成跳过编码器的输入，源文本首先被转换成音素序列。为了对不同层次的韵律结构进行编码，我们在输入音素之间插入代表不同层次韵律边界的特殊符号。上图举例说明了如何插入这些代表韵律边界的特殊符号

skip 的细节略, 到时候看代码

2.2. Alignment Model

跟预想的一样, 就不详细写了:

语音合成的一个重要任务是揭示音素序列和目标特征/频谱序列之间的隐藏对齐。端到端系统依靠基于注意力的机制来发现这种一致性。然而，现有的端到端注意机制经常产生不可预测的伪像，其中一些单词在生成的语音中被跳过或重复。由于生产语音合成系统对这种不稳定性的容忍度非常低，端到端语音合成系统还没有在实际应用中广泛部署。在DurIAN中，我们用对齐模型[15，16]代替了注意机制，其中音素序列和目标声学序列之间的对齐是从音素持续时间预测模型中推断出来的。每个音素的持续时间由对齐的声学帧的数量来衡量。在训练过程中，声学帧序列和输入音素序列之间的对齐可以通过语音识别中广泛使用的强制对齐来获得。然后，对齐用于隐藏状态扩展，它只是根据音素持续时间复制隐藏状态。在合成过程中，使用单独的持续时间模型来预测每个音素的持续时间。这个持续时间模型被训练成在给定整个句子的情况下，最小化预测音素持续时间和通过强制对齐获得的持续时间之间的均方误差。状态扩展后，每部手机内每帧的相对位置被编码为0到1之间的值，并附加到编码器状态。扩展的编码器状态类似于端到端系统中估计的注意力上下文，除了在榴莲中它们是从预测的电话持续时间推断出来的