tacotron2 介绍

论文地址:

natural tts synthesis by conditioning wavenet on mel spectrogram predictions

https://arxiv.org/pdf/1712.05884.pdf

论文翻译

https://my.oschina.net/stephenyng/blog/1620467

一、模型框架

a. 一个引入注意力机制（attention）的基于循环seq2seq的特征预测网络，用于从输入的字符序列预测梅尔频谱的帧序列；

b. 一个WaveNet网络的修订版，用于基于预测的梅尔频谱帧序列来学习产生时域波形样本。

c. 连接层：低层次的声学表征-梅尔频率声谱图

1.梅尔频率声谱图作为衔接层：

a.梅尔频谱比波形样本更平滑，并且由于其每一帧都是对相位不变的，所以更容易用均方误差损失（MSE）进行训练

b.线性频率声谱图：短时傅里叶变换的振幅

梅尔频谱是对短时傅里叶变换的频率轴施加一个非线性变换，用较少的维度对频率范围进行压缩变换得到的.

强调语音的低频细节，低频细节对语音的可理解度非常关键，

同时淡化高频细节，而高频部分通常被磨擦声和其他爆裂噪声所主导，因此基本上在高保真处理中不需要对高频部分进行建模.

注：线性声谱图抛弃了相位信息（因此是有损的），而像Griffin-Lim这样的算法可以对抛弃的相位信息进行估计，用一个短时傅里叶逆变换就可以把线性声谱图转换成时域波形。

梅尔声谱图抛弃的信息更多，因此对逆向波形合成任务提出了挑战。

2.频谱预测网络

a.tacotron的做法

在Tactron中，使用50毫秒帧长，12.5毫秒帧移，汉宁窗截取，然后施加短时傅里叶变换（STFT）得出线性频谱。

然后使用频率范围在125赫兹到7.6K赫兹之间的80通道的梅尔滤波器组对STFT的线性频率进行过滤，

后接对数函数进行范围压缩，从而把STFT幅度转换到梅尔刻度上。

在进行对数压缩前，滤波器组的输出振幅被稳定到最小0.01以便限制其在对数域中的动态取值范围。

b.tacotron2的做法

（1）编码器

I.输入字符被编码成512维的字符向量

II.3层卷积，每层卷积包含512个5 x 1的卷积核，即每个卷积核横跨5个字符，后接批标准化（batch normalization）[18]和ReLU激活函数

III.双向 LSTM层用以生成编码特征，这个LSTM包含512个单元（每个方向256个单元）

（2）引入注意力机制的解码器

解码器是一个自回归的循环神经网络

I.一个每层由256个隐藏ReLU单元组成的双层全连接的“pre-net”

II.pre-net的输出和注意力上下文向量拼接在一起，传给一个两层堆叠的由1024个单元组成的单向LSTM

III.LSTM的输出再次和注意力上下文向量拼接在一起，然后经过一个线性变换投影来预测目标频谱帧

IIII.目标频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上

post-net的每层由512个5 × 1卷积核和一个批标准化处理组成，除了最后一层卷积，每层的批标准化处理都后接一个tanh激活函数

网络中的卷积层使用概率为0.5的dropout进行正则化处理，LSTM层使用概率为0.1的zoneout进行正则化处理。

为了在推断时给输出结果带来些变化，概率为0.5的dropout只施加在自回归解码器的pre-net上

c.与Tacotron对比

新模型使用更简洁的构造模块，在编码器和解码器中不使用Tacotron中的“CBHG”堆叠结构和GRU循环层，转而使用普通的LSTM和卷积层。我们没有在解码器的输出中使用“缩小因子（reduction factor）”，即每个解码步骤只输出一个单独的频谱帧。

3.WaveNet 声码器

a.梅儿频谱特征表达逆变换为时域波形样本。

在WaveNet的原架构中，有30个扩大卷积层，分3个循环进行，也就是说第k(k = 0 : : 29)层的扩张率等于2的p次方，p等于k (mod 10)。

b.我们没有像WaveNet那样使用softmax层预测离散片段，我们借鉴了PixelCNN++和最近WaveNet的改进版，

使用10元混合逻辑分布(10-componentMoL)来生成频率为24k赫兹的16位深的语音样本。

为了计算混合逻辑分布，WaveNet的堆叠输出传给ReLU激活函数，再连接一个线性投影层来为每一个混元预测参数（均值，对数刻度，混合权重）。

损失函数使用标定真实数据的负对数似然函数计算而得。

c.原始的WaveNet使用5毫秒帧率下的语言特征，音素时长，以及对数基频（F0）。

我们在实验中注意到在5毫秒帧率过于紧密，导致预测频谱数据帧时有显著的发音问题，

因此我们修改了WaveNet架构，在转置卷积网络中通过使用2层上采样把帧率改成了12.5毫秒。

猜你喜欢