Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation


作者:Dongchan Min
单位:KAIST
会议:2021 ICML

abstract

拟解决的问题:目标说话人很少的数据完成语音合成的任务
方法:

  • 提出Style-Adaptive Layer Normalization(SALN),从ref-audio的一句话中提取风格;
  • 引入两个style prototypes训练的判别器将此引申为meta-style speech,以提升对新的说话人的风格适应能力。

1. introduction

现有的小数据TTS任务的方法及问题:

  1. base model + 小数据自适应,需要自适应的过程;
  2. 额外的编码器获得latent embedding without adaptation,高度依赖原始数据集中说话人的区分度,如果区分度不高的话,新的话说人性能就比较差;

Meta learning,也叫learning to learn,是强化学习的分支,主要用于few-shot 判别,也有用于few-shot生成。关于生成任务,之前在图像上有成功的应用(人脸生成),TTS上还没有。

贡献点:

  1. 提出StyleSpeech,可以从单句短的ref-audio中解耦风格信息,完成到新说话人的TTS;
  2. 将StyleSpeech扩展到Meta-StyleSpeech,使用style prototypes and an episodic meta-learning algorithm
    分别训练基于phn和style的判别器,可以更好的适应unseen speaker;

3. StyleSpeech

3.1. Mel Style Encoder

输入ref-mel,编码说话人身份和韵律,网络结构:

  • Spectral processing::全连接,将mel-spec编码成mel-embedding
  • Temporal processing::gated CNNs,建模全局特征
  • Multi-head self-attention

3.2. Generator

采用FastSpeech的结构,具体包括

  • phn encoder:phn级别的编码
  • variance adaptor:预测每个phn的时长,以及phn级别的pitch/energy信息;然后按照时长展开到frame-level;
  • mel-spec decoder:生成mel谱。
    为了完成多人TTS,不是把style embedding直接拼接在encoder output,提出一种新的方法:SALN。
  • Style-Adaptive Layer Norm用于替换FastSpeech中的layer norm
    给定输入 h h h,均值方差归一化成 y y y

在这里插入图片描述
g ( w ) g(w) g(w)是gain, b ( w ) b(w) b(w):bias,根据给定的style vector w w w对引向量进行缩放和平移;是对 w w w过全连接之后得到的;
因此生成器可以根据给定的ref audio生成各种各样的多说话人语音。

Training

the generator and the mel-style encoder 都是用mel重建L1 loss优化

4. Meta-Style Speech

通过SALN,StyleSpeech可以完成多说话人TTS。但是对于unseen speaker时,泛化性仍然受到挑战。
提出meta-learning,使用episodic training(是meta-learning常用的训练手段)。
在每个训练episode中,选择一个support sample( X s , t s X_s, t_s Xs,ts),一个来自目标说话人的query text( t q t_q tq
目的是生成 t q t_q tq和风格 w s w_s ws对应的speech X q X_q Xq
但问题是但是没有对应的target用于重建loss计算,为此引入判别器—风格判别器和phn判别器。

style discriminator Ds

判别生成的语音是否和目标说话人音色一致;从K个说话人中提取每个人的speaker embedding(style prototype 风格原型),在给定 w s w_s ws的前提下,风格原型 s i s_i si (第i个人的说话人特征表示)的计算方式:
在这里插入图片描述
然后从生成的语音中再次提取特征 h ( X q ) h(X_q) hXq),和 s i s_i si 计算scalar,希望距离尽可能近。
在这里插入图片描述

phoneme discriminator Dt

输入是 X q X_q Xq t q t_q tq,frame-level的进行计算,因为知道phn的时长,可以将帧级别的mel与对应的phn拼接;计算每一帧的scalar,求平均。
Dt的最终loss
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/118936070