前言

利用深度学习网络训练模型时，需要对一些超参数作用与意义进行清楚了解，才能根据实际训练时出现的问题做相应调整，进而训练出满足精度的模型。

一、momentum

动量来源于牛顿定律，基本思想是为了找到最优，SGD通常来说下降速度比较快，但却容易造成另一个问题，就是更新过程不稳定，容易出现震荡。加入“惯性”的影响，就是在更新下降方向的时候不仅要考虑到当前的方向，也要考虑到上一次的更新方向，两者加权，某些情况下可以避免震荡，摆脱局部凹域的束缚，进入全局凹域。动量，就是上一次更新方向所占的权值。当误差曲面中存在平坦区域，SGD可以更快的学习，是梯度下降法中一种常用的加速技术。
对于一般的SGD，其表达式为：
w := w - lr * dw
即沿负梯度方向下降。而添加momentum的SGD形式如下：
v := mu * v - lr * dw
w := w + v
其中mu为momentum系数，即如果上一次的momentum(v)与这一次的负梯度方向是相同的，则这次下降的幅度就会很大，就起到加速迭代收敛的作用。

注：一个小的trick是，当刚开始训练的时候，把动量设小，或者直接就置为0，然后慢慢增大冲量，有时候效果比较好。

二、权重衰减（weight decay）

1.背景

在机器学习或者模式识别中，会出现overfitting，而当网络逐渐overfitting时网络权值逐渐变大，因此，为了避免出现overfitting，会给误差函数添加一个惩罚项（正则项），常用的惩罚项是所有权重的平方乘以一个衰减常量之和。其基本思想就是减小不重要的参数对最后结果的影响，一般权值衰减惩罚项使得权值收敛到较小的绝对值，而惩罚大的权值。因为大的权值会使得系统出现过拟合，降低其泛化性能。

2. L2正则化与权重衰减系数

在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，L2正则化就是在代价函数后面加上一个正则化项：

其中C0代表原始的代价函数，后面那一项就是L2正则化项，其为所有参数w平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。

3. 公式推导

我们对加入L2正则化后的代价函数进行推导，先求导：

可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响：

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为1-ηλ/n，因为η（学习率）、λ、n都是正的，所以1-ηλ/n小于1，它的效果是减小w，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。
另外，需要提一下，对于基于mini-batch的随机梯度下降，w和b更新的公式跟上面给出的有点不同：

对比上面w的更新公式，可以发现后面那一项变了，变成所有导数加和，乘以η再除以m，m是一个mini-batch中样本的个数。

4. 正则项（权重衰减）作用

作用及使用：

（1）使用正则项既不是为了提高收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
（2）如果过拟合，调大这个参数；如果欠拟合，调小这个参数。
（3）对于caffe框架最终正则项的惩罚是solver.prtotxt中设置的惩罚项weight_decay与layer中的decay_mult的乘积。若不想让某一些参数加入正则项中，则将layer中的对应param中的参数decay_mult设置为0。例如，一般把bias的decay_mult设置为0，代表bias不加入到正则项的优化中。
思考： L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？
原理：
（1）从模型的复杂度上解释：较小的权值w，从某种意义上说，表示网络的复杂度较低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。
（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

å¨è¿éæå¥å¾çæè¿°

三、学习率（learning rate）

学习率决定了权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。在训练模型的时候，通常会遇到这种情况：我们平衡模型的训练速度和损失（loss）后选择了相对合适的学习率（learning rate），但是训练集的损失下降到一定的程度后就不在下降了，比如training loss一直在0.2和0.4之间来回震荡，不能进一步下降。如下图所示：
遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。
学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。学习率衰减策略见：https://blog.csdn.net/aoxuerenwudi/article/details/109208467
————————————————
版权声明：本文为CSDN博主「破茧蛰伏的日子」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/aoxuerenwudi/article/details/109208500

深度学习超参数——momentum、learning rate和weight decay

前言

一、momentum

二、权重衰减（weight decay）

1.背景

2. L2正则化与权重衰减系数

3. 公式推导

4. 正则项（权重衰减）作用

三、学习率（learning rate）

猜你喜欢

深度学习超参数——momentum、learning rate和weight decay

前言

一、momentum

二、 权重衰减（weight decay）

1.背景

2. L2正则化与权重衰减系数

3. 公式推导

4. 正则项（权重衰减）作用

三、 学习率（learning rate）

猜你喜欢

二、权重衰减（weight decay）

三、学习率（learning rate）