Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

会议:2019 interspeech
作者:Nirmesh J. Shah
单位:DA-IICT, Gandhinagar, India

abstract

在数据有限的情况下,vc model会过拟合,因此大部分的方法是pre-training再finetune。作者希望探究通过不需要预训练的方法同时避免过拟合。

1. introduction

深度学习中,预训练的方法逐渐被better activation function and regularization methods替代。
contribution:

  • DNN训练策略的探究
  • ReLU各种变种的尝试,希望更快的收敛
  • Xavier initialization 与random initialization的比较,前者得到更好的收敛性能
  • drop out避免过拟合
  • w.r.t (with reference to) 不同的优化策略, SGD和Adam
  • 在VCC 2016 和VCC2018 上进行了主观和客观测试

2. DNN-based VC

讲了DNN训练的几个部分。。。。

3. Strategies for Training DNN for VC

  1. drop out 解决过拟合 drop_out_rate = 0.3
  2. 激活函数:ReLU, LReLU, and ELU的优点是他们不会有梯度消失的问题,并且收敛速度快,泛化性好。
    在这里插入图片描述
  3. SGD的学习速率保持不变,Adam会根据梯度下降的速度调整学习率
  4. 初始化:如果权重过小,输入在各层之间的变化很小,会导致输入数据没有起作用。如果权重过大,输入在各层之间的变化很大,输入爆炸。Xavier initializer保证各层权重的变化是一致的,保持0均值,1/N方差的高斯分布(n是输入神经元数目)。

4. Experimental Results

基于平行数据,DTW的算法实现的,说话人句子数n = 10, 20, 40, 100, and150.
分别在VCC 2016和VCC2018上做了实验对比,主管评测分数一般。
在这里插入图片描述

postscript
这篇文章一开始看就有点不舒服的感觉,看完发现前2页半全是在普及深度学习的基础知识。。。。
自己写论文要注意创新点,避免这种看起来非常工程化的工作量的堆砌。

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103938209
今日推荐