语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization

本文章是国立台湾大学电气工程与计算机科学学院发表的关于声音转换的工作，本文章是把音频分解为语言特征和说话人特征，然后再进行组合，具体的文章链接

https://arxiv.org/pdf/1904.05742.pdf

demo链接

https://jjery2243542.github.io/one-shot-vc-demo/

（最近搞VC，前期试验使用ppg效果还算好，但存在的缺点是效果受到ASR的制约，而且刚进入公司不久，跨组让ASR帮忙真的很不便利，因此决定不使用ppg方案，所以尝试该篇文中的方案）

1 研究背景

voice conversion是保留音频的内容而更换音频的音色，以前的VC可以被分为两类：平行数据和非平行数据。平行数据是转换设计的源音频和目标音频的内容一致，这是不容易获得的。非平行数据是源音频和目标音频的内容不一致，甚至可以跨语言，因此受到很多人的关注。目前，非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换，但效果受到ASR好坏的制约，而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案，操作起来更加便捷。

2 详细设计

本文的整体架构如图1所示，该系统包括speaker encoder, content encoder和decoder 三部分模块。speaker encoder进行speaker信息的提取，context encoder提取音频的内容，其中该部分去除speaker 信息没有使用反转网络而是使用IN的结构，该结构我在其它部分找到PPT图片，大家可以直接看图。decoder部分则是把encoder和speaker输出重新生成音频。该三部分的具体网络结构如图2所示，其中训练的LOSS为公式3。

3 实验

看一下实验结果，先说明IN对解耦说话人的信息效果，table 1为解耦效果，可以看出添加IN可以很好的解耦说话人。图3展示了speaker encoder的效果，在训练集内核外的编码，不同性别能够很好的区分开来。接下来看一下转换音频的客观指标，图4和图5可以看出转换后的音频和原始音频特征分布很像。主观测评图6可以看出，转换的音频的相似度和目标说话人很像。

4 总结

VC方案可以被分为两类：平行数据和非平行数据。非平行数据是源音频和目标音频的内容不一致，甚至可以跨语言，因此受到很多人的关注。目前，非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换，但效果受到ASR好坏的制约，而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案，操作起来更加便捷。

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

猜你喜欢