专业实践记录II: 端到端跨语言音色迁移语音合成

0. 说明

记录的是2020-12-16到2021-1-16之间的工作

1. 工程性

1.1. 商业化混语言合成系统完善

接上月的工作,在有双语语料的前提下,实现混语言文本的合成

这部分的系统名称为:Fantasy Mix-Lingual Tacotron

1.1.1. 实验细节

使用的语料有:使用实验室标贝双语数据集训练,平安科技公司的春春虚拟双语语料

总共尝试的模型有:

  • Fantasy Mix-Lingual Tacotron Version 2: 使用Grapheme,保留Language ID,使用VAE模块
  • Fantasy Mix-Lingual Tacotron Version 4: 使用Phoneme,保留Language ID,使用VAE模块
  • Fantasy Mix-Lingual Tacotron Version 5: 使用Phoneme,保留Language ID,去除VAE模块
  • Fantasy Mix-Lingual Tacotron Version 6: 使用Phoneme,去除Language ID,使用VAE模块
  • Fantasy Mix-Lingual Tacotron Version 7: 使用Phoneme,去除Language ID,去除VAE模块
  • Fantasy Mix-Lingual Tacotron Version 4修正版: Language ID提前到TXT Encoding处拼接,其余不变

1.1.2. 实验现象和结论

  • Fantasy Mix-Lingual Tacotron Version 4修正版效果最好,可以达到混语言文本能够合成正常的效果
  • Phoneme比Grapheme好得多
  • 必须保留Language ID,不论输出端是否区分开不同语言的输入表示
  • VAE模块的理解还不够,效果体现测试的不够。但直观上使得混语言文本合成效果各部分更加的自然

1.1.3. 未来工作

将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本

1.2. 阿里提出的跨语言音色转换结构

1.2.1. 基于Tacotron的PPG到MEL谱映射

  • PPG降采样
  • Fine-Tune冻结位置的尝试
  • Fine-Tune程度的尝试

1.2.2. 代码实现

  • 对比阿里相对于Tacotron的结构修正
  • 基于r9y9的Pytorch实现

1.2.3. 未来工作

  • 实现最优Fine-Tune的阿里结构PPG-TTS

1.3. AutoVC复现

复现AutoVC论文,并探究影响实验结果的条件

  • Similar Loss: 从AutoVC的Content Loss中的推论,对于自编码结构的影响讨论
  • 不同声学超参数提取对实验结果的影响
  • AutoVC提出的维度与降采样的作用
  • One-hot与Speaker Encoder方案的区别

实验结论应用于同事的论文中

2. 研究性

2.1. Voice Transfer跨语言合成方案

2.1.1. 思路

  • 音色编码器为基础的提取音色信息的方案
  • 不使用源语言语料进行声学模型训练
  • 只使用目标语言语料训练声学模型
  • 不适用目标说话人语料训练模型
  • 只使用多个源说话人训练模型,依赖多个人建立出完善的音色特征空间
  • 主要依赖于良好的Speaker Encoder模块,沟通目标音色和多个源音色之间的关系

2.1.2. 实验结果

  • 实验跨语言合成效果远远好于之前方案
  • 受限于音色建模和信息冲突,音色的相似性和合成稳定性仍不够好

2.1.3. 未来工作

  • 参考台湾大学论文改进Voice Transfer跨语言合成方案,达到合成的稳定性

2.2. Similar Loss在PPG自编码TTS的作用

2.2.1. 思路

  • CopyVC:使用Similar Loss的基于Google-19年Tacotron跨语言合成框架的PPG为输入的结构

2.2.1. 未来工作

  • 完善CopyVC的思路并实现

3. 下阶段任务

  • 将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本
  • 实现最优Fine-Tune的阿里结构PPG-TTS
  • 参考台湾大学论文改进Voice Transfer跨语言合成方案,达到合成的稳定性
  • 从AutoVC以及参与论文中总结信息解耦方式,如similar loss的使用,用之于跨语言合成中
  • 完善基于PPG自编码的CopyVC的思路并实现

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/113393773