0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam

需要强调的是，梯度按元素平方的累加变量 $s$ 出现在学习率的分母项中。因此，如果目标函数有关自变量中某个元素的偏导数一直都较大，那么就让该元素的学习率下降快一点；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么就让该元素的学习率下降慢一点。然而，由于 $s$ 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。所以，当学习率在迭代早期降得较快且当前解依然不佳时，Adagrad 在迭代后期由于学习率过小，可能较难找到一个有用的解。

特点

Adagrad 在迭代过程中不断调整学习率，并让目标函数自变量中每个元素都分别拥有自己的学习率。
使用 Adagrad 时，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。

RMSProp

当学习率在迭代早期降得较快且当前解依然不佳时，Adagrad 在迭代后期由于学习率过小，可能较难找到一个有用的解。为了应对这一问题，RMSProp 算法对 Adagrad 做了一点小小的修改。

不同于 Adagrad 里状态变量 $s$ 是到目前时间步里所有梯度按元素平方和，RMSProp 将过去时间步里梯度按元素平方做指数加权移动平均。公式如下：

\begin{matrix} (6) & s_{t} = γ \cdot s_{t - 1} + (1 - γ) \cdot \nabla_{w}^{2}; 其 中 0 < γ < 1 \end{matrix}

$s_t =\gamma \cdot s_{t-1} + (1-\gamma) \cdot \nabla_w^2 \ ; \ \ \ \ 其中 0<\gamma <1\ \tag6$
权重更新公式仍然如AdaGrad

\begin{matrix} (5) & w = w - \frac{η_{t}}{\sqrt{s_{t} + ϵ}} \cdot \nabla_{w} \end{matrix}

$w = w - \frac {\eta_t} {\sqrt{s_t + \epsilon }} \cdot \nabla_w \tag 5$

未完待续… …

参考

a) An overview of gradient descent optimization

b) 优化算法

0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam

numpy实现神经网络系列

SGD

AdaGrad

特点

RMSProp

参考

猜你喜欢