AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 优化调整方案

0. 说明

论文不太好直接出效果, 下面列出ke能有效地注意事项

1. bottleneck

1.1. 目前参数

信息瓶颈是最关键的部分, 在说话人embedding256, decoder第一层会dim变为512的前提下, 本文仅仅依赖content dim, down sampling factor两个地方控制信息瓶颈的大小, 论文中采用:

  • 标准的32, 32
  • 信息狭窄16, 128
  • 信息宽阔256, 8, 同时不进行L_content的计算

代码中默认参数:

  • 使用16, 16

1.2. 改进参数

应该多试试, 但是怎么试? 和什么有关系? 

1.3. 评测标准

  • Recon. Error
  • Class. Acc.
  • VC后主观评测
  • VC后客观评测
  • 两次VC后客观评测

2. multi-task 权重

引入L_content, 并且文章使用了权重1, 用不用改一下? 不过目前可以默认不变

3. 提取speaker embedding

以下方案都值得试试

3.1. 去除音频静默段

3.2. 改变超参数, 不改变方案

有下面几个超参数:

  1. 使用wav片段长度, wav_len = 2s
  2. 一共采用片段个数, wav_num = 10
  3. 仍然使用预训练ASV结果, 取平均值

3.3. one-hot embedding

作者建议使用one-hot embedding来处理音色

3.4. 其他speaker encoder方案

如Real Time Voice Clone的单次采样

4. VCTK的使用

使用哪些些说话人

  • 10
  • 20
  • 40
  • 109
  • 100

5. 序列映射ML相关

5.1. batch size

  • 论文bs=2
  • 调的大些?

5.2. seq长度

  • 论文每次2s
  • 论文不去首尾静默段
  • 合成的时候不加限制

其实保持送入speaker encoder为2s, 输入content encoder也是2s, 挺好的. 合成的时候也测2s, 就当作建模问题condition到音频均2s

5.3. Taco-seq训练

  • 完整的音频
  • 排序
  • 大点batch

不过不一定有意义, 不一定有5.2好

6. DANN的使用

提前使用speaker classify对抗, 不过改变了论文的本来意思, 先不加

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/111685563