GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

abstract

  • 目标:做out-of-domain (OOD)style transfer(情感、音色、韵律)
  • 两个改进:(1)multi-level style adaptor :包括global style以及 local style (utterance, phoneme, and word-level) ;(2) content adaptor with Mix-Style Layer Normalization:用以消除输入文本特征中的风格信息,改善模型泛化能力;

背景

  • Meta-StyleSpeech,SC-GlowTTS,Styler: Style factor modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech.
  • OOD的风格迁移,尤其是zero-shot的,都有先验的假设新的目标风格对于base model是可迁移的,但实际上,新的目标风格可能不同于base model中任意一种数据分布,这就要求:the model can be invariant to domain shift given unseen data. 从图像上借鉴一些方法。

GenerSpeech

  • 问题定义:transfer of out-of-domain custom voice.
  • 分析:想要做风格迁移,首先要划分好哪些是风格先管的特征,哪些是风格无关的特征
    • style-agnostic (linguistic content)
    • style-specific (e.g., speaker identity, emotion, and prosody)

Mix-Style Layer Normalization—去除文本中的风格信息

在这里插入图片描述

  • 常规condition layer norm的基础上,将说话人相关的向量打散加入layer norm的系数中;

Multi-level Style adaptor

在这里插入图片描述

Global Representation

  • 从wav2vec2.0 中提取,
  • wav2vec训练的loss是mask挖空对比学习之类,得到的模型浅层是比较全局的信息如音色之类,深层的是内容相关的信息。这种可以作为ASR的前置特征提取;audio token训练的loss是重建,所以包含了重建语音所需的所有信息,可用于TTS离散化

Local Representation

  • frame/phn/word level prosody embedding:按照边界进行conv pooling,然后加VQ量化,过滤韵律无关的信息;

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/132546049
今日推荐