深度学习的训练技巧总结--台大李宏毅机器学习课程笔记

主要记录一些学习过程，以后查阅也方便，来源：李宏毅机器学习课程

Early Stopping

此时提前停止的testing set是有label的data，一般是自己划分出来的Val验证集数据或类似kaggle的public set

Regularization

$\eta \lambda$ 都是很小的值，因此每次update之前就相当于乘上一个接近1的数，比如0.99，这相当于前面越来越接近0，相当于在做weight decay。但是深度学习中正则化（Regularization）一般并没有SVM那样明显有帮助。正则化与early stopping所做的事是比较接近的，都是使参数不要离零太远。

每一次update参数时，如果w为正，就是减去一个值让参数变大。如果w是特别大的正值，对于L2正则化减去的也很大，但对于L1减去的都差不多，因此L1可能会保留很多很大的值。如果考虑很小的值比如0.1，0.001，L2下降的就会很慢，因此会保留很多很小的值，而L1减去的值都是固定的值（+1或-1），因此L1的结果比较稀疏。

Dropout

training阶段每一个神经元被丢掉的概率都是p%,每一次update前都进行上图所示的dropout。在testing时，不进行dropout，如果训练的dropout是p%，那么测试时weights都会乘上（1-p)%，这些不需要自己操作，pytorch、tensorflow等工具都已经做好了。

上图所示，如果不乘一个值，那么就会不匹配z' = 2z，而都乘0.5时就基本相同了。

其实dropout也相当于一种ensemble方法

上面两幅图就是典型的ensemble思想，dropout与此十分相似。

每次都只用一个minibatch去train网络，每次都随机使用dropout，因此实际相当于训练了很多个network，如下图所示：

注意：每层的weight是共享的

ensmeble思想如上图，将所有networks每个都丢一个minibatch然后输出结果进行平均，但上述实际运算太复杂，而神奇的是做测试时不做dropout，而给整个网络乘上（1-p）%效果是和ensmeble完全一样的。

New activation function

如果使用sigmoid函数，当layer越来越多时，准确率会大幅下降（在手写体数字数据集上）。这并不是由于过拟合造成，主要是因为梯度消失问题。靠近input层的梯度很小，学习也很慢；但靠近output的梯度已经很大，学习非常快，甚至已经收敛（这时候会进入local min）；而且此时参数可能时random的，输出就已经收敛，这种结果是非常差的。

如何改变上述这种情况呢？可能你会想到增大输入的 $\Delta \omega$ （ $\partial C/\partial w = ?\Delta C/\Delta w$ C:cost、w:参数），那么Sigmoid函数（上图）即使input变化很大，output变化也很小，即会衰减，而通过的sigmoid越多（即network越深），衰减的也越多，所以可以看出即使 $\Delta \omega$ 变化很大，造成sigmoid的input变化很大，但经过sigmoid的output变化很小，最终对输出的影响与cost也很小，即很难改变上述情况。