深度学习超参数理解

这篇博客是对深度学习中比较重要的或者常见的超参数做一个整理笔记。

1：learning rate（ $\eta$ ）

学习率决定了权值更新的速度，在迭代更新权值的过程中，设置过大容易使训练的模型跨过最优值，导致过拟合；设置过小会使梯度下降过程过慢。这个参数是根据经验和不断实验来设置。

$w_i = w_i - \eta \frac{\partial E}{\partial w_i}$

2：Weight decay（ $\lambda$ ）

为了避免过拟合，必须对目标函数cost function（损失函数一般也叫价值函数）加入一些正则项： $E = E_0 + \frac{\lambda }{2N}\sum_{w}^{ }w^2$ ，其中 $E_0$ 为原目标函数，后边则为L2正则项，是所有参数w的平方和，除以训练集的样本大小N的2倍， $\lambda$ 是正则项系数。这里顺便了解一下L2正则项是怎样防止overfitting的。

推导过程：（参考了这位大神博客：https://www.cnblogs.com/alexanderkun/p/6922428.html）

求导： $\frac{\partial E}{\partial w} = \frac{\alpha E_0}{\partial w} + \frac{\lambda }{n}w$

$\frac{\partial E}{\partial b} = \frac{\partial E_0}{\partial b}$

对w的更新为： $w_i = w_i - \eta \frac{\partial E}{\partial w_i} = w_i - \eta\frac{\partial E_0}{\partial w_i} - \frac{\eta \lambda }{n}w_i = (1-\frac{\eta \lambda }{n})w_i - \eta \frac{\partial E_0}{\partial w_i}$ ，由于 $\frac{\eta \lambda }{n}>0$ ，所以 $1-\frac{\eta \lambda }{n}$ 的效果实际上是减小了w,这也就是权重衰减（weight decay）的由来。当然考虑到后边的导数项，w更新后的值可能增大也可能减小。

但是加入正则项L2有让w减小的效果，为什么w减小能够防止过拟合呢？下边引用知乎上的一个回答：

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

3：Momentum（ $\nu$ ）

动量的作用是为了在梯度下降中，加快下降的速度，从而使训练迅速收敛。我们知道 $w_i = w_i - \eta \frac{\partial E}{\partial w_i}$ ，在mini-batch SGD法中，梯度为 $\frac{1}{m}\frac{\partial \sum_{i=1}^{m}E_i}{\partial w_i}$ ，其中m为mini-batch中的m个样本，加入momentum之后， $w_i$ 的更新分为两步：

这里写图片描述

第一步：新建一个动量 $\nu$ ，计算 $\nu = \alpha \nu - \eta\frac{1}{m}\frac{\partial \sum_{i=1}^{m}E_i}{\partial w_i}$

第二步：更新权值 $w_i$ ， $w_i = w_i + \nu$ 。实际上动量是一个下降过程的累积。

直观解释：如图所示，红色为SGD+Momentum。黑色为SGD。可以看到黑色为典型Hessian矩阵病态的情况，相当于大幅度的徘徊着向最低点前进。
而由于动量积攒了历史的梯度，如点P前一刻的梯度与当前的梯度方向几乎相反。因此原本在P点原本要大幅徘徊的梯度，主要受到前一时刻的影响，而导致在当前时刻的梯度幅度减小。
直观上讲就是，要是当前时刻的梯度与历史时刻梯度方向相似，这种趋势在当前时刻则会加强；要是不同，则当前时刻的梯度方向减弱。

这里写图片描述