（1）批处理

Batch Gradient Descent
参数更新： $\theta=\theta-\eta\nabla_{\theta}J(\theta)$
由上式观察知，每进行一次参数更新，需要计算整个数据集的样本。因此，该方法存在以下不足：
（1）不适合大的数据集，因为每次更新需要重复扫描所有的样本，耗时；
（2）当陷入鞍点或较差的局部最优点时，梯度很难跑出来，因此可能难以保证每次得到的都是最优解。

（2）单样本处理

Stochastic Gradient Descent
参数更新： $\theta=\theta-\eta\nabla_{\theta}J(x^{(i)},y^{(i)};\theta)$
显然，每次更新只需要计算一个样本，但是因为样本的随机性，会导致梯度的更新产生较大的振荡。

（3）小批次样本处理

Mini-Batch Gradient Descent
参数更新： $\theta=\theta-\eta\nabla_{\theta}J(x^{(i:i+k)},y^{(i:i+k)};\theta)$

综上三种方法，它们主要包含下面两点不足：
（1） $\eta$ 选择困难，且固定。当 $\eta$ 选择较大的时候，则靠近快收敛处时，容易跳过收敛点；当其较小时，梯度更新蛮，效率不高。
（2）这三种方法都易收敛到局部最优点。此外，在有些情况下，易陷入鞍点。

因此，基于以上不足，有人提出了一种基于动量的方法。

Momentum

该方法借鉴物理上的动量思想（所以说学科之间是相通的嘛>O<），通过累积之前的动量来加速当前的梯度。
首先，定义 $m_{t},m_{t-1}$ ：当前时刻的动量，之前累积的动量； $\mu$ ：动量因子，一般设为0.9
参数更新：
$m_{t}=\mu m_{t-1}+\eta\nabla_{\theta}J(\theta)$
$\theta_{t}=\theta_{t-1}-m_{t}$
该方法最大的优点就是抑制了动荡。
其有以下一些特点：
（1）参数最开始更新的时候，如果加上前一次参数更新值，当前后2次下降方向一致，乘上较大的 $\mu$ 能够很好地加速，从而加快收敛；
（2）参数更新中期，可能会在局部最小值附近来回振荡，梯度趋向于0， $\mu$ 使得更新幅度增大，能够跳出陷阱，避免了陷入局部最优点和鞍点的问题；
（3）在梯度方向改变时，该方法能降低参数更新的速度，故而减小了振荡；在梯度方向相同的时候，该方法可以加快参数更新，加速收敛，提高效率。

PS：第一次写，不足之处，还请各位大神多指教…

优化方法——梯度下降

优化方法——梯度下降法

（1）批处理

（2）单样本处理

（3）小批次样本处理

Momentum

猜你喜欢