Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

会议：2019 interspeech
单位：Greece, University of Crete

abstract

目的是基于非平行数据的many-to-many vc。基于博弈论（Game Theory) 的思想，把生成器的梯度乘一定的权重，使得生成器能够生成更加逼真的假样本以干扰判别器。
是StarGAN的一个变种，称为WeStarGAN-VC ，主观评测的语音质量和相似度分别提升75%和65%。

introduction

vc是一个回归问题，传统的方法比如多元线性回归，GMM，JD-GMM，缺点是依赖平行数据；近年来的非线性方法，RBM，DNN，其中seq2seq的转换取得比较大的成果，但是seq2seq依赖于大量的外部数据和ASR。

CVAE(conditional variational autoencoder)最近被提出用于vc，它是VAE的一个扩展，encoder和decoder可以添加额外的输入。GAN网络在vc上的成功应用使得GAN-VC是一个很好的前景。Cycle-GAN【19】用对抗loss和cycle consistent loss同时学习了前向和反向的frame-to-frame的映射。StarGAN【21】是针对one-to-one mapping的一个改进，提出一个统一的模型结构可以同时训练multi-domain。

StarGAN利用了先用的GAN的3项loss,它稳定性训练的缺乏可以通过WGAN的梯度惩罚克服（WGAN-GP)。我们对WGAN-GP提出一种新的有效的权重因子，给到能够欺骗判别器的样本对应的生成器更多的权重，同样减少不能欺骗判别器的生成器权重，目的是增强生成器的能力。在训练过程中，增强弱生成器的鲁棒性，有助于收敛。实验结果也表明比baseline StarGAN更好。

2. Generative Adversarial Networks

2.1 GAN原理

在这里插入图片描述
$p_{data}$ 是要学习的目标分布
$p_z$ 是噪声输入分布

2.2. StarGAN

$y'=G(x,c)$
声学特征序列所在的域：src— $x\in R^{F\times D}$ 和tar— $y\in R^{F\times D}$ 。tar 域标签c,随机生成的，以保证mang-to-many灵活的转换。引入辅助分类器，帮助判别器控制多个域。
loss函数有3项
Adversarial Loss:
在这里插入图片描述
生成器使得loss变小，判别器使loss变大，加惩罚项。
x^是真实样本和生成样本的均匀采样。

Domain Classification Loss:
在这里插入图片描述
生成器的目的是最小化这一项 $L_{cls}^{fake}$ ，不应该最大？？有点疑惑。

Reconstruction Loss:
尽管对抗损失和域判别损失帮助生成器将语句从source domain转换到target domain，但是并不能保证文本信息被保存下来。
在这里插入图片描述
综上，损失函数可以写作

2.3. Training StarGAN with Weights(WeStarGAN)

【22】提出优化vanilla GANs性能的算法，不是对所有的样本权重求平均，而是对能够欺骗判别器的样本权重加大，减小对判别器认为是假的样本权重。这样和理论也是一致的，能够欺骗判别器的生成样本会和真实样本更接近，对于同样的判别器，用weighted 权重得到的生成器性能会比equalled 权重得到的更强大。
把这种算法用在WGAN的优化中，称为WGAN-GP，判别器不是返回样本是否为真的概率，而是返回一个连续的回归类型的值。
将判别器的输出归一到axis=0附近，生成器权重定义为：
在这里插入图片描述
其中， $\eta$ 权重值的权重因子，经验值设为0.1
$\overline D_i$ 归一化的判别器被用于估计权重，判别器输出 $\overline D_i <0$ ,权重指数减少， $\overline D_i>0$ ，相反。

3. experiment

3.1. Experimental conditions

用CMU的数据集，两男两女，分成无交叉的训练集和验证集。随机挑选以避免构成平行数据，36维的MCC，LF0（对数归一化）, AP被提取，最后用WORLD合成语音。
$c$ 用4维的one-hot向量表示4个target speaker

3.2 model architecture

在这里插入图片描述

4. Results and Discussion

本文提出的WeStarGAN和baseline-StarGAN做比较，测试了ABX, AB。结果是WeStarGAN更好一些，说明对生成器权重的调整是有效的。
作者进一步认为，可以使用更加轻量级的生成器，使得可以用在嵌入式器件上----因为生成器的能力增强，所以更加轻量级的网络不会造成明显的转换语音质量下降的问题。

林林宋

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

私信关注