Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation

文章目录

作者：Dongchan Min
单位：KAIST
会议：2021 ICML

abstract

拟解决的问题：目标说话人很少的数据完成语音合成的任务
方法：

提出Style-Adaptive Layer Normalization（SALN），从ref-audio的一句话中提取风格；
引入两个style prototypes训练的判别器将此引申为meta-style speech，以提升对新的说话人的风格适应能力。

1. introduction

现有的小数据TTS任务的方法及问题：

base model + 小数据自适应，需要自适应的过程；
额外的编码器获得latent embedding without adaptation，高度依赖原始数据集中说话人的区分度，如果区分度不高的话，新的话说人性能就比较差；

Meta learning，也叫learning to learn，是强化学习的分支，主要用于few-shot 判别，也有用于few-shot生成。关于生成任务，之前在图像上有成功的应用（人脸生成），TTS上还没有。

贡献点：

提出StyleSpeech，可以从单句短的ref-audio中解耦风格信息，完成到新说话人的TTS；
将StyleSpeech扩展到Meta-StyleSpeech，使用style prototypes and an episodic meta-learning algorithm
分别训练基于phn和style的判别器，可以更好的适应unseen speaker；

3. StyleSpeech

3.1. Mel Style Encoder

输入ref-mel，编码说话人身份和韵律，网络结构：

Spectral processing:：全连接，将mel-spec编码成mel-embedding
Temporal processing:：gated CNNs,建模全局特征
Multi-head self-attention

3.2. Generator

采用FastSpeech的结构，具体包括

phn encoder：phn级别的编码
variance adaptor：预测每个phn的时长，以及phn级别的pitch/energy信息；然后按照时长展开到frame-level；
mel-spec decoder：生成mel谱。
为了完成多人TTS，不是把style embedding直接拼接在encoder output，提出一种新的方法：SALN。
Style-Adaptive Layer Norm用于替换FastSpeech中的layer norm
给定输入 $h$ ，均值方差归一化成 $y$

在这里插入图片描述
$g (w)$ 是gain， $b (w)$ :bias，根据给定的style vector $w$ 对引向量进行缩放和平移；是对 $w$ 过全连接之后得到的；
因此生成器可以根据给定的ref audio生成各种各样的多说话人语音。

Training

the generator and the mel-style encoder 都是用mel重建L1 loss优化

4. Meta-Style Speech

通过SALN，StyleSpeech可以完成多说话人TTS。但是对于unseen speaker时，泛化性仍然受到挑战。
提出meta-learning，使用episodic training（是meta-learning常用的训练手段）。
在每个训练episode中，选择一个support sample（ $X_s, t_s$ ），一个来自目标说话人的query text（ $t_q$
目的是生成 $t_q$ 和风格 $w_s$ 对应的speech $X_q$ 。
但问题是但是没有对应的target用于重建loss计算，为此引入判别器—风格判别器和phn判别器。

style discriminator Ds

判别生成的语音是否和目标说话人音色一致；从K个说话人中提取每个人的speaker embedding（style prototype 风格原型），在给定 $w_s$ 的前提下，风格原型 $s_i$ (第i个人的说话人特征表示）的计算方式：
在这里插入图片描述
然后从生成的语音中再次提取特征 $h（X_q)$ ，和 $s_i$ 计算scalar，希望距离尽可能近。