文章目录
作者:Dongchan Min
单位:KAIST
会议:2021 ICML
abstract
拟解决的问题:目标说话人很少的数据完成语音合成的任务
方法:
- 提出Style-Adaptive Layer Normalization(SALN),从ref-audio的一句话中提取风格;
- 引入两个style prototypes训练的判别器将此引申为meta-style speech,以提升对新的说话人的风格适应能力。
1. introduction
现有的小数据TTS任务的方法及问题:
- base model + 小数据自适应,需要自适应的过程;
- 额外的编码器获得latent embedding without adaptation,高度依赖原始数据集中说话人的区分度,如果区分度不高的话,新的话说人性能就比较差;
Meta learning,也叫learning to learn,是强化学习的分支,主要用于few-shot 判别,也有用于few-shot生成。关于生成任务,之前在图像上有成功的应用(人脸生成),TTS上还没有。
贡献点:
- 提出StyleSpeech,可以从单句短的ref-audio中解耦风格信息,完成到新说话人的TTS;
- 将StyleSpeech扩展到Meta-StyleSpeech,使用style prototypes and an episodic meta-learning algorithm
分别训练基于phn和style的判别器,可以更好的适应unseen speaker;
3. StyleSpeech
3.1. Mel Style Encoder
输入ref-mel,编码说话人身份和韵律,网络结构:
- Spectral processing::全连接,将mel-spec编码成mel-embedding
- Temporal processing::gated CNNs,建模全局特征
- Multi-head self-attention
3.2. Generator
采用FastSpeech的结构,具体包括
- phn encoder:phn级别的编码
- variance adaptor:预测每个phn的时长,以及phn级别的pitch/energy信息;然后按照时长展开到frame-level;
- mel-spec decoder:生成mel谱。
为了完成多人TTS,不是把style embedding直接拼接在encoder output,提出一种新的方法:SALN。 - Style-Adaptive Layer Norm用于替换FastSpeech中的layer norm
给定输入 h h h,均值方差归一化成 y y y
g ( w ) g(w) g(w)是gain, b ( w ) b(w) b(w):bias,根据给定的style vector w w w对引向量进行缩放和平移;是对 w w w过全连接之后得到的;
因此生成器可以根据给定的ref audio生成各种各样的多说话人语音。
Training
the generator and the mel-style encoder 都是用mel重建L1 loss优化
4. Meta-Style Speech
通过SALN,StyleSpeech可以完成多说话人TTS。但是对于unseen speaker时,泛化性仍然受到挑战。
提出meta-learning,使用episodic training(是meta-learning常用的训练手段)。
在每个训练episode中,选择一个support sample( X s , t s X_s, t_s Xs,ts),一个来自目标说话人的query text( t q t_q tq
目的是生成 t q t_q tq和风格 w s w_s ws对应的speech X q X_q Xq。
但问题是但是没有对应的target用于重建loss计算,为此引入判别器—风格判别器和phn判别器。
style discriminator Ds
判别生成的语音是否和目标说话人音色一致;从K个说话人中提取每个人的speaker embedding(style prototype 风格原型),在给定 w s w_s ws的前提下,风格原型 s i s_i si (第i个人的说话人特征表示)的计算方式:
然后从生成的语音中再次提取特征 h ( X q ) h(X_q) h(Xq),和 s i s_i si 计算scalar,希望距离尽可能近。
phoneme discriminator Dt
输入是 X q X_q Xq和 t q t_q tq,frame-level的进行计算,因为知道phn的时长,可以将帧级别的mel与对应的phn拼接;计算每一帧的scalar,求平均。
Dt的最终loss