会议:2020 interspeech
作者:Kun Zhou, Haizhou Li
单位:National University of Singapore
demo链接:音质比较差,情绪似乎是有的
本文参考了【2020interspeech】
idea:加一个情感识别的module,做对抗训练
- CWT:continuous wavelet transform,连续小波变换,将1维信号处理成时间&频率连续的信号。可以通过逆小波变换恢复。
文章目录
abstract
- emotional voice conversion是指进行情感状态的迁移,而不改变音色和文本内容。
- 假设情感是说话人无关的特征,与语种,个人,文化都没有关系;
- 本文提出一种基于非平行数据,VAW-GAN based encoder-decoder的网络结构, 进行spectral and prosody 的映射(因为情感和这两个音素都有关系)。对于prosoy conversion,通过continuous wavelet transform (CWT) 建模时序依赖性。
- VAW-GAN:variational autoencoding Wasserstein generative adversarial
1. introduction
- 基于CNN的方法很多关注spectral conversion,没有关注prosody conversion,但是对于情感转换,这两者都非常重要。
- 之前的技术,不管是基于平行数据的方法,还是基于非平行数据的方法,很多都是基于特定说话人的。在情感识别领域,speaker-independent的情感识别比speaker-dependent的情感识别更鲁棒。
- CycleGAN 技术应用于非平行的EVC,但是它更适用于pair-wise的数据;VAW-GAN结构更适用于学习情感无关的表征。
- 本文的贡献:(1)从说话人无关的角度研究EVC;(2)提出基于非平行数据的VAW-GAN结构;(3)研究韵律建模:对情感无关的encoder+F0;
2. Speaker-Independent Perspective on Emotion
- 为了验证情感是说话人无关的,做了一个实验:基于特定说话人EVC的cycle-GAN,通过测试spectral conversion 和prosody conversion。
- 集外说话人也可以完成很好的EVC,说明情感是说话人无关的。???
3. Speaker-Independent EVC
VAW-GAN的结构,encoder可以建模情感无关的信息,用WORLD提取sp和F0,因为F0包含了局部的信息,所以需要对他进行CWT decomposition, 因为CWT decomposition对F0的不连续很敏感,所以要提前对F0提前进行。
- F0 process step:
- (1)线性差值;
- (2)对数域变换;
- (3)0均值1方差处理;
3.1 training
发现对spectral和prosody建模会取得更好的结果。因此分开训练两个网络(输入是多说话人,多情感的帧级特征)
- (1)VAW-GAN for Spectrum:VAW-GAN+F0
- (2)VAW-GAN for Prosody
- 两个网络的输入是帧级别的特征,来自于多个不同的说话人,包含不同的情绪;因此encoder建模的是情绪无关的隐向量 z z z,只包含说话人身份信息和音素信息;
- 因为要恢复到带情感的说话人句子,需要(1)emotion-ID;(不是从F0来的)(2)句子内容+说话人身份–encoder output;(3)F0—输入;
3.2 Run-time Conversion
- VAW-GAN for Spectrum的decoder需要的F0来自于VAW-GAN for Prosody预测输出;
- 最终用WORLD恢复,AP来自于source
4. Experiments
- 数据集:1) an English emotional speech corpus [39], 2) EmoR-DB [40]and 3) JL- Corpus [41].
- 训练集:前两个数据集选3个女性,JL corpus选2个女生用作eval(unseen speaker),训练过程和conversion过程的叫seen speaker,
- emotion conversion: neutral to angry. emotion
- encoder-output(128-d) + emotion ID(10-d one-hot vector) + converted F0(1-d)
4.2 Objective Evaluation
CWT的有效性:实验对于CWT提取的F0作为输入 vs LG-based linear transformation处理的F0作为输入
4.3. Subjective Evaluation
F0 conditioning的有效性(spectral decoder):(1)测试MOS分
(2)XAB测试