Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

作者：Daisy Stanton, Yuxuan Wang
时间： 2018 arxiv
在GST之后的一篇文章

abstract

GST学到的是说话特征解相关后的高维表示。本文提出text-predicting GST(TP-GST),可以直接从文本中预测风格，训练和infer的时候都不需要额外的输入。结果也表明我们的方法比两个base model效果更好。

introduction

当前TTS的难点在于合成natural-sounding speech，它指的是高的音频保真度，发音正常以及好的韵律（包含低级信息：pitch,stress, rhythm,break,etc)。本文的speaking style包含一些更高层次的东西，比如 emotional valence and arousal。很难从文本中获得韵律，style相关的信息，而且同一句话有不同的但都合适的表示方式。有的方法会用额外的韵律注释，但是这样代价很高而且效果并不一定好。
许多TTS模型可以从训练参数中学到韵律的潜在表示，比如英文疑问句的结束是一个上扬语调。然而合成长的，有表现力的语句仍然很难。【2】和【3】提出用模型学习解相关的speaking style特征，需要从学到的韵律空间采样或者手动选择以生成输出。
因此，语音合成系统需要能够表示宽范围的speaking style，而且在infer的时候不需要注释就可以合成有表现力的句子。本文是GST模型的拓展，可以学习到说话人无关的因素变化。

model

TP-GST是在GST的基础上添加了两条infer时候可能的文本预测路径，使得模型在infer的时候可以预测style embedding的两种方式：
（1）TPCM—对训练时候学到的GST进行线性插值，使用仅由文本预测的combination weights
（2）TPSE—忽视style token和combination weight，直接由text feature预测style embedding

因为inference时候的style embedding选择不影响训练，因此text-prediction target可以联合训练。