6种机器学习中的优化算法：SGD,牛顿法,SGD-M,AdaGrad,AdaDelta,Adam

本文一共介绍6种机器学习中的优化算法：

1.梯度下降算法（SGD）

用梯度下降算法最小化目标函数f(x)，梯度下降算法沿着梯度向量的反方向进行迭代以得到函数的极值点。参数迭代公式：

其中，γ为学习率，参数初始值为x0,即起始位置。

设置迭代停止条件：

1.达到最大迭代次数

2.梯度小于设定值

2.牛顿法

用牛顿法最小化目标函数f（x）

牛顿发直接使用驻点处导数为0得出参数迭公式：

其中，γ为学习率，参数初始值为x0,即起始位置。

用到了梯度的一阶导数gk，和二阶导数Hk。

停止迭代条件：

缺点：求解Hessian矩阵的逆矩阵或者求解线性方程组计算量大，需要耗费大量的时间。

求的点是极小值点并不一定是最小值点。

3.SGD-M

momentum是模拟物理里动量的概念，更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向，可以在一定程度上增加稳定性，从而学习更快，并且还有摆脱局部最优的能力。

其中，u为动量因子，该算法的特点:

4.AdaGrad

AdaGrad为自适应梯度，是梯度下降算法变体，根据历史梯度值来调整学习率，参数迭代公式：

其中gt 表示当前迭代次数的梯度值。

该算法的特点：

优点：学习率将随着梯度的倒数增长，也就是说较大梯度具有较小的学习率，而较小的梯度具有较大的学习率，可以解决普通的sgd方法中学习率一直不变的问题
缺点：还是需要自己手动指定初始学习率，而且由于分母中对历史梯度一直累加，学习率将逐渐下降至0，并且如果初始梯度很大的话，会导致整个训练过程的学习率一直很小，从而导致学习时间变长。

5.AdaDelta

AdaDelta是对AdaGrad的改进，在一个窗口中对梯度进行求和，而不是对梯度一直累加。将累计梯度信息从全部历史梯度变为当前时间向前的一个窗口期内的累积：