Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

会议:2019 interspeech
单位:Greece, University of Crete

abstract

目的是基于非平行数据的many-to-many vc。基于博弈论(Game Theory) 的思想,把生成器的梯度乘一定的权重,使得生成器能够生成更加逼真的假样本以干扰判别器。
是StarGAN的一个变种,称为WeStarGAN-VC ,主观评测的语音质量和相似度分别提升75%和65%。

introduction

vc是一个回归问题,传统的方法比如多元线性回归,GMM,JD-GMM,缺点是依赖平行数据;近年来的非线性方法,RBM,DNN,其中seq2seq的转换取得比较大的成果,但是seq2seq依赖于大量的外部数据和ASR。

CVAE(conditional variational autoencoder)最近被提出用于vc,它是VAE的一个扩展,encoder和decoder可以添加额外的输入。GAN网络在vc上的成功应用使得GAN-VC是一个很好的前景。Cycle-GAN【19】用对抗loss和cycle consistent loss同时学习了前向和反向的frame-to-frame的映射。StarGAN【21】是针对one-to-one mapping的一个改进,提出一个统一的模型结构可以同时训练multi-domain。

StarGAN利用了先用的GAN的3项loss,它稳定性训练的缺乏可以通过WGAN的梯度惩罚克服(WGAN-GP)。我们对WGAN-GP提出一种新的有效的权重因子,给到能够欺骗判别器的样本对应的生成器更多的权重,同样减少不能欺骗判别器的生成器权重,目的是增强生成器的能力。在训练过程中,增强弱生成器的鲁棒性,有助于收敛。实验结果也表明比baseline StarGAN更好。

2. Generative Adversarial Networks

2.1 GAN原理

在这里插入图片描述
p d a t a p_{data} 是要学习的目标分布
p z p_z 是噪声输入分布

2.2. StarGAN

y = G ( x , c ) y'=G(x,c)
声学特征序列所在的域:src— x R F × D x\in R^{F\times D} 和tar— y R F × D y\in R^{F\times D} 。tar 域标签c,随机生成的,以保证mang-to-many灵活的转换。引入辅助分类器,帮助判别器控制多个域。
loss函数有3项
Adversarial Loss:
在这里插入图片描述
生成器使得loss变小,判别器使loss变大,加惩罚项。
x^是真实样本和生成样本的均匀采样。

Domain Classification Loss:
在这里插入图片描述
生成器的目的是最小化这一项 L c l s f a k e L_{cls}^{fake} ,不应该最大??有点疑惑。

Reconstruction Loss:
尽管对抗损失和域判别损失帮助生成器将语句从source domain转换到target domain,但是并不能保证文本信息被保存下来。
在这里插入图片描述
综上,损失函数可以写作
在这里插入图片描述

2.3. Training StarGAN with Weights(WeStarGAN)

【22】提出优化vanilla GANs性能的算法,不是对所有的样本权重求平均,而是对能够欺骗判别器的样本权重加大,减小对判别器认为是假的样本权重。这样和理论也是一致的,能够欺骗判别器的生成样本会和真实样本更接近,对于同样的判别器,用weighted 权重得到的生成器性能会比equalled 权重得到的更强大。
把这种算法用在WGAN的优化中,称为WGAN-GP,判别器不是返回样本是否为真的概率,而是返回一个连续的回归类型的值。
将判别器的输出归一到axis=0附近,生成器权重定义为:
在这里插入图片描述
其中, η \eta 权重值的权重因子,经验值设为0.1
D i \overline D_i 归一化的判别器被用于估计权重,判别器输出 D i < 0 \overline D_i <0 ,权重指数减少, D i > 0 \overline D_i>0 ,相反。

3. experiment

3.1. Experimental conditions

用CMU的数据集,两男两女,分成无交叉的训练集和验证集。随机挑选以避免构成平行数据,36维的MCC,LF0(对数归一化), AP被提取,最后用WORLD合成语音。
c c 用4维的one-hot向量表示4个target speaker

3.2 model architecture

在这里插入图片描述

4. Results and Discussion

本文提出的WeStarGAN和baseline-StarGAN做比较,测试了ABX, AB。结果是WeStarGAN更好一些,说明对生成器权重的调整是有效的。
作者进一步认为,可以使用更加轻量级的生成器,使得可以用在嵌入式器件上----因为生成器的能力增强,所以更加轻量级的网络不会造成明显的转换语音质量下降的问题。

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103621943