Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

会议:2021 interspeech
作者:panshifeng
单位:microsoft

demo page

abstract

motivation:Cross-speaker style transfer TTS
现有技术的痛点:(1)单个的prosody encoder无法提供精确的prosody information;(2)prosody information中还混合有context,speaker,prosody等多种信息。

methods

做一个multi-speaker,multi-prosody的TTS,提供phone-level prosody bottleneck信息控制。-----问题在于:如果么有src_style对应的句子,似乎无法生成target。

在这里插入图片描述
在这里插入图片描述

cross-speaker style transfer的过程

  1. source_spk_id+src_style+content 生成prosody feature;
  2. tar_spk_id+src_styke+content生成encoder output;
  3. 1+2合成语音。

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/121009901
今日推荐