0. 题目

IMPROVED PARALLEL WAVEGAN VOCODER WITH PERCEPTUALLY WEIGHTED SPECTROGRAM LOSS

改进的PARALLEL-WaveGAN声码器: 通过直观的加权的频谱Loss

1. 摘要

本文提出了一种基于并行-WaveGAN的文本语音转换（TTS）系统的频谱域感知加权技术。最近提出的Parallel WaveGAN声码器使用快速的非自回归WaveNet模型成功生成了波形序列。通过使用具有生成对抗网络的多分辨率短时傅立叶变换（MR-STFT）标准，可以有效地训练轻型卷积网络，而无需任何知识蒸馏过程。为了进一步提高声码编码的准确性能力，我们提出将频率加权应用于MR-STFT损失函数。所提出的方法在频域中惩罚了感知敏感的误差, 优化模型以减少合成语音中的听觉噪声。主观听力测试结果表明，我们提出的方法分别针对韩国男性和女性说话者获得了4.21和4.26 TTS平均意见得分

关键词: Text-to-speech, speech synthesis, neural vocoder, Parallel WaveGAN

文字转语音，语音合成，神经声码器，并行WaveGAN

2. 简介

原始语音波形的生成模型已显着提高了神经文本语音转换（TTS）系统的质量[1、2]。具体来说，诸如WaveNet之类的自回归生成模型已成功取代了传统的参数声码器的作用[2-5]。非自回归版本，包括并行WaveNet，提供了一种基于师生框架的快速波形生成方法[6，7]。在这种方法中，模型是使用概率密度蒸馏方法训练的，其中将自回归教师WaveNet的知识转移到逆自回归流学生模型中[8]

在我们之前的工作中，我们将生成对抗网络训练方法引入并行WaveNet框架[9]，并通过将对抗训练与多分辨率短时傅立叶变换（MR-STFT）标准相结合提出了并行WaveGAN [10]。，11]。尽管仅通过使用对抗损失函数就可以训练基于GAN的非自回归模型，但已证明采用MRSTFT损失函数对于提高训练效率是有利的[10、13、14]。此外，由于并行WaveGAN仅训练WaveNet模型而没有任何密度蒸馏，因此整个训练过程变得比传统方法容易得多，并且该模型仅用少量参数可以生成自然的语音波形

为了进一步提高并行WaveGAN的性能，本文提出了一种频谱域感知加权方法来优化MR-STFT标准。一个与频率相关的掩蔽滤波器被设计用来惩罚对人耳感知敏感的频谱谷附近的误差[15]。通过在训练步骤中将此滤波器应用于STFT损失函数计算，可以指导网络减少那些区域中的噪声分量。因此，与原始的Parallel WaveGAN相比，所提出的模型产生的声音更自然

我们的贡献可以总结如下：

我们提出了一种感知加权MR-STFT损失函数以及传统的对抗训练方法。这种方法提高了基于并行WaveGAN的神经TTS系统中合成语音的质量
由于所提出的方法不会改变网络架构，因此它保留了原始Parallel WaveGAN中的少量参数，并保持了快速的推理速度。特别是，在具有1.83 M参数的单个GPU环境中，该系统生成的24 kHz语音波形比实时速度快50.57倍
我们的方法在神经TTS系统中分别针对韩国男性和女性说话者的平均意见得分（MOS）结果为4.21和4.26

3. 其他-容易懂

使用基于STFT的损失函数的想法并不新鲜。在他们对频谱图反演的研究中，Sercan等人。 [16]首先提出了频谱收敛性和对数尺度STFT幅度损失，而我们先前的工作提出了以多分辨率形式对它们进行组合[9]。此外，感知噪声整形滤波器在自回归WaveNet框架中显着提高了合成语音的质量[17]。根据人类听觉系统的特征，设计了一个外部噪声整形滤波器，以减少频谱谷区域中的感知敏感噪声。该过滤器在训练步骤中充当预处理器；因此，WaveNet了解了噪声形残留信号的分布。在合成步骤中，通过将其逆滤波器应用于WaveNet的输出，可以重建增强的语音

但是，事实证明，过滤器的有效性不适用于非自回归生成模型，包括WaveGlow [18]和Parallel WaveGAN。造成这种情况的一个可能原因可能是，如果没有先前的时间步长信息，非自回归模型很难捕获噪声整形残留信号的特性。为了解决这个问题，提出的系统将频率相关的掩码应用于计算STFT损失函数的过程。由于此方法不会改变目标语音的分布，因此可以稳定地优化非自回归WaveNet，同时显着减少听觉噪声成分

Fig.1 计算光谱收敛时获得的幅度距离（MD）：（a）光谱掩模的权重矩阵，（b）涂覆掩模之前的MD（常规方法），以及（c）涂覆掩模之后的MD（建议方法）

4. 其他-不容易懂

其中，Wt，f表示频谱掩模的权重系数。通过沿时间轴重复一个时不变频率掩蔽滤波器来构造权重矩阵W，其传递函数定义如下

其中〜αk表示第k个线性预测（LP）系数，其阶数为p，是通过对从训练数据中提取的所有频谱进行平均而获得的。如图1a所示，光谱模板的权重矩阵被设计为代表光谱共振峰结构的整体特征。这样可以重点放在对人耳更为敏感的频谱谷频率区域的损耗。在计算STFT损耗时（图1b），该滤波器用于惩罚那些区域中的损耗（图1c）。结果，训练过程可以指导模型进一步降低合成语音中的感知噪声1

SLT2021: IMPROVED PARALLEL WAVEGAN VOCODER WITH PERCEPTUALLY WEIGHTED SPECTROGRAM LOSS

0. 题目

1. 摘要

2. 简介

3. 其他-容易懂

4. 其他-不容易懂

猜你喜欢