会议:2019 interspeech
作者:Nirmesh J. Shah
单位:DA-IICT, Gandhinagar, India
abstract
在数据有限的情况下,vc model会过拟合,因此大部分的方法是pre-training再finetune。作者希望探究通过不需要预训练的方法同时避免过拟合。
1. introduction
深度学习中,预训练的方法逐渐被better activation function and regularization methods替代。
contribution:
- DNN训练策略的探究
- ReLU各种变种的尝试,希望更快的收敛
- Xavier initialization 与random initialization的比较,前者得到更好的收敛性能
- drop out避免过拟合
- w.r.t (with reference to) 不同的优化策略, SGD和Adam
- 在VCC 2016 和VCC2018 上进行了主观和客观测试
2. DNN-based VC
讲了DNN训练的几个部分。。。。
3. Strategies for Training DNN for VC
- drop out 解决过拟合 drop_out_rate = 0.3
- 激活函数:ReLU, LReLU, and ELU的优点是他们不会有梯度消失的问题,并且收敛速度快,泛化性好。
- SGD的学习速率保持不变,Adam会根据梯度下降的速度调整学习率
- 初始化:如果权重过小,输入在各层之间的变化很小,会导致输入数据没有起作用。如果权重过大,输入在各层之间的变化很大,输入爆炸。Xavier initializer保证各层权重的变化是一致的,保持0均值,1/N方差的高斯分布(n是输入神经元数目)。
4. Experimental Results
基于平行数据,DTW的算法实现的,说话人句子数n = 10, 20, 40, 100, and150.
分别在VCC 2016和VCC2018上做了实验对比,主管评测分数一般。
postscript
这篇文章一开始看就有点不舒服的感觉,看完发现前2页半全是在普及深度学习的基础知识。。。。
自己写论文要注意创新点,避免这种看起来非常工程化的工作量的堆砌。