Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

Gradient descent with momentum 动量梯度下降算法

运用指数加权平均算法，计算梯度的指数加权平均，然后用这个梯度来更新权重。
这里写图片描述

当使用梯度下降时，下降路径可能会和上图蓝色路径相似，不断震荡；所以我们不能用比较大的learning_rate，以防出现如紫色路径一样的diverging。
通过使用指数加权平均，在纵坐标（以上图阐述）方向的来回震荡通过加权之后，会相互抵消而减小；在横坐标方向，因为都是朝向最低点的方向，因此加权平局会叠加而增大；从而得到红色路径（步数更少，速度更快）。
$V_{d w} = β V_{d w} + (1 - β) d w$ $V_{{\rm d}w} = \beta V_{{\rm d}w} + (1-\beta){\rm d}w$
$V_{d b} = β V_{d b} + (1 - β) d b$ $V_{{\rm d}b} = \beta V_{{\rm d}b} + (1-\beta){\rm d}b$
$w := w - α V_{d w}$ $w := w- \alpha V_{{\rm d}w}$
$b := b - α V_{d b}$ $b := b- \alpha V_{{\rm d}b}$
$(1-\beta){\rm d}w$ ， $(1-\beta){\rm d}b$ 可以看作是加速度，从而加速梯度下降
实践中， $\beta = 0.9$ 的效果很不错，可以尝试其他值，不过0.9是一个稳健的数值
初始化 $V_{{\rm d}w} =0,\ V_{{\rm d}b} =0$
在gradient descent with momentum中不使用Bias correction $\frac{V_{{\rm d}w}}{1- \beta ^t}$ ，因为通常十次以后，就稳定了。
Gradient descent with momentum几乎总是优于没有动量的梯度下降法