One-shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams

会议: 2019 interspeech
单位: ObEN公司
作者:Seyed Hamidreza Mohammadi, Taehwan Kim
demo: https://shamidreza.github.io/is19samples/
summary:听了一下,相似度一般,不像,可能是用WORLD vocoder,语音质量很差
但是可以学习结果分析和展示的方法

abstract

motivation: one-shot vc,只需要one or few target utterances, 完成any-to-any的vc

思路:用distangled representation of speaker identity and linguistic context,RNN encoder编码speaker embedding, ppgs表示文本编码,RNN decoder生成转换句子。

优点:模型简单,不需要对抗训练、hierarchical model,相似度超过baseline.

introduction

non-parallel的方法仍然需要说话人的信息作为先验知识。
【14】提出用FH-VAE引入解相关和可解释的特征,可以用一句话就实现转换,但是相似度并不让人满意。【15】基于这个结构做了cross-lingual的实验,模型学习将说话人信息和文本信息解相关,但是无监督学习下将这个两个特征解相关比较难,因为没有 inductive biases(归纳偏好,学习过程中的价值观,比如可以有多条曲线拟合一个点,但是什么样的标准选择哪一条更好,就是归纳偏好)。

因为,本文用PPGs代替文本信息,目的是学习speaker embedding,并且在和ppgs结合之后重建波形的时候降低loss。

Related Work

GAN网络训练的是src-tar pairs,即使有many-to-many的vc,但是target speaker必须是训练时候见过的。VAE用作vc的时候,speaker identity必须在训练时候见过,而不能直接infer。
DC-GAN,InfoGAN, 被他=VAE,FHVAE都提出利用latent code的解相关特征。计算机视觉和图像生成上也用到风格和内容的单独编码,vc可以沿用相似的思路,在target utt很少的情况下,用无监督的方法从数据中infer speaker identity(FHVAE提出的)。Siamese AE提出用平行数据学习解相关的说话人和文本特征,难点在于:假设hierarchical architecture, domain adversail train,但是相似度不够。
本文直接用PPGs表示说话人无关的文本信息,子网络单独提取说话人信息,结果表示更有效。

model

在这里插入图片描述
loss 函数
在这里插入图片描述
inference两种方法
(1) z t a r \overline {z}^{tar} 直接取代 z s r c {z}^{src} ,但是结果不好,muffled speech(含糊)
(2)计算差距:source和target utt分别提取计算,取得性能的明显提升,分析是 z s r c \overline{z}^{src} 可能不是完全解相关的。
在这里插入图片描述
在这里插入图片描述

4. experiment

4.1 datasets

vc model: TIMIT(train&test),客观测试(需要平行数据)—CMU
ASR: librispeech, Kaldi ASR recipe

4.2 experiment setting

在这里插入图片描述

4.3. Visualizing embeddings

实验1: 比较proposed model和FHVAE的可视化结果
实验2: 比较 D z = 8 16 32 D_z=8,16,32 的区别
衡量标准
(1)男女分开,分界线更明显;(2)不同人间距比较—距离大,分布均衡(密集);

4.4. Effect of training data size

客观指标mel-CD[7],不同数目的句子提取的speaker embedding对性能的影响,结果表明,proposed model一致性的好于FHVAE。
在这里插入图片描述

4.5 subjective test

在amazon平台上做的主观测试,
(1)语音质量—AB test;
(2)语音相似度,评分指标–+2 (definitely same), +1 (probably same), 0 (unsure), -1 (probably different), and -2 (definitely different)
最后对结果进行t-test分析,t-test介绍,直接比绝对性能。
在这里插入图片描述

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103834592