Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion

会议:2020 interspeech
作者:Kun Zhou, Haizhou Li
单位:National University of Singapore
demo链接:音质比较差,情绪似乎是有的
本文参考了【2020interspeech】

idea:加一个情感识别的module,做对抗训练

  • CWT:continuous wavelet transform,连续小波变换,将1维信号处理成时间&频率连续的信号。可以通过逆小波变换恢复。

abstract

  • emotional voice conversion是指进行情感状态的迁移,而不改变音色和文本内容。
  • 假设情感是说话人无关的特征,与语种,个人,文化都没有关系;
  • 本文提出一种基于非平行数据,VAW-GAN based encoder-decoder的网络结构, 进行spectral and prosody 的映射(因为情感和这两个音素都有关系)。对于prosoy conversion,通过continuous wavelet transform (CWT) 建模时序依赖性。
  • VAW-GAN:variational autoencoding Wasserstein generative adversarial

1. introduction

  • 基于CNN的方法很多关注spectral conversion,没有关注prosody conversion,但是对于情感转换,这两者都非常重要。
  • 之前的技术,不管是基于平行数据的方法,还是基于非平行数据的方法,很多都是基于特定说话人的。在情感识别领域,speaker-independent的情感识别比speaker-dependent的情感识别更鲁棒。
  • CycleGAN 技术应用于非平行的EVC,但是它更适用于pair-wise的数据;VAW-GAN结构更适用于学习情感无关的表征。
  • 本文的贡献:(1)从说话人无关的角度研究EVC;(2)提出基于非平行数据的VAW-GAN结构;(3)研究韵律建模:对情感无关的encoder+F0;

2. Speaker-Independent Perspective on Emotion

  • 为了验证情感是说话人无关的,做了一个实验:基于特定说话人EVC的cycle-GAN,通过测试spectral conversion 和prosody conversion。
  • 集外说话人也可以完成很好的EVC,说明情感是说话人无关的。???

3. Speaker-Independent EVC

VAW-GAN的结构,encoder可以建模情感无关的信息,用WORLD提取sp和F0,因为F0包含了局部的信息,所以需要对他进行CWT decomposition, 因为CWT decomposition对F0的不连续很敏感,所以要提前对F0提前进行。

  • F0 process step:
  • (1)线性差值;
  • (2)对数域变换;
  • (3)0均值1方差处理;

3.1 training

在这里插入图片描述

发现对spectral和prosody建模会取得更好的结果。因此分开训练两个网络(输入是多说话人,多情感的帧级特征)

  • (1)VAW-GAN for Spectrum:VAW-GAN+F0
  • (2)VAW-GAN for Prosody
  • 两个网络的输入是帧级别的特征,来自于多个不同的说话人,包含不同的情绪;因此encoder建模的是情绪无关的隐向量 z z z,只包含说话人身份信息和音素信息;
  • 因为要恢复到带情感的说话人句子,需要(1)emotion-ID;(不是从F0来的)(2)句子内容+说话人身份–encoder output;(3)F0—输入;

3.2 Run-time Conversion

在这里插入图片描述

  • VAW-GAN for Spectrum的decoder需要的F0来自于VAW-GAN for Prosody预测输出;
  • 最终用WORLD恢复,AP来自于source

4. Experiments

  • 数据集:1) an English emotional speech corpus [39], 2) EmoR-DB [40]and 3) JL- Corpus [41].
  • 训练集:前两个数据集选3个女性,JL corpus选2个女生用作eval(unseen speaker),训练过程和conversion过程的叫seen speaker,
  • emotion conversion: neutral to angry. emotion
  • encoder-output(128-d) + emotion ID(10-d one-hot vector) + converted F0(1-d)

4.2 Objective Evaluation

CWT的有效性:实验对于CWT提取的F0作为输入 vs LG-based linear transformation处理的F0作为输入

4.3. Subjective Evaluation

F0 conditioning的有效性(spectral decoder):(1)测试MOS分
(2)XAB测试
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/113745794