算法结构

梯度类算法有很多，本文主要学习最常见的3个算法：最速下降法、牛顿法和拟牛顿法。算法名称虽多，但是他们的算法结构都是一样的，可以描述为

（1）选定初始点 $x0 \pmb {x}_0$ 。

（2）迭代公式为 $\pmb{x}_{k+1}=\pmb{x}_k+\alpha_k\pmb{d}_k$ ，其中 $\alpha_k$ 和 $dk \pmb{d}_k$ 分别为第 $k$ 次的迭代步长和迭代方向。

人们常说，选择大于努力。对优化算法来说，也是类似的：如果 $dk \pmb{d}_k$ 设计的不好，可能无论 $\alpha_k$ 怎么努力，都得不到最优解。所以，我们应该重点关注 $dk \pmb{d}_k$ 的构造方法。

最速下降法

最朴素的想法，就是如果针对任意初始点，都能直接算出让函数下降最快的方向，就好了。下面我们看看怎么能够做到。

假设 $\pmb{x}_k=[x_{k1},x_{k2},..,x_{kn}]$ ，给定方向 $\pmb{s}$ 上的一个增量为
$\Delta \pmb{s}=[\Delta x_1, \Delta x_2, ..., \Delta x_n]$
定义在点 $xk \pmb{x}_k$ 处沿方向 $\pmb{s}$ 的变化率为
$\frac{\partial f(\pmb{x})}{\partial \pmb{s}} \vert _{\pmb{x}_k}= \lim\limits_{\Delta \pmb{s}\to0}\frac{f(\pmb{x}_k+\Delta \pmb{s})-f(\pmb{x}_k)}{\Vert \Delta \pmb{s} \Vert}$
当 $\Delta \pmb{s}$ 足够小时，上式右侧的分子变为全微分形式
$f(\pmb{x}_k+\Delta \pmb{s})-f(\pmb{x}_k)=\frac{\partial f}{\partial x_{k1}}\vert _{\pmb{x}_k}\Delta x_{1}+\frac{\partial f}{\partial x_{k2}}\vert _{\pmb{x}_k}\Delta x_2+···+\frac{\partial f}{\partial x_{kn}}\vert _{\pmb{x}_k}\Delta x_n$
将上式带入上上式
$\frac{\partial f(\pmb{x})}{\partial \pmb{s}} \vert _{\pmb{x}_k} = \lim\limits_{\Delta \pmb{s}\to0}( \frac{\partial f}{\partial x_{k1}}\vert _{\pmb{x}_k}\frac{\Delta x_1}{\Delta \pmb{s}}+\frac{\partial f}{\partial x_{k2}}\vert _{\pmb{x}_k}\frac{\Delta x_2}{\Delta \pmb{s}}+···+\frac{\partial f}{\partial x_{kn}}\vert _{\pmb{x}_k}\frac{\Delta x_n}{\Delta \pmb{s}}) \\ = \frac{\partial f}{\partial x_1}\vert _{\pmb{x}_k}\cos{\alpha}_1+\frac{\partial f}{\partial x_2}\vert _{\pmb{x}_k}\cos{\alpha}_2+···+\frac{\partial f}{\partial x_n}\vert _{\pmb{x}_k}\cos{\alpha}_n \\ = [\nabla f(\pmb{x}_k)]^T \pmb{e}$
此处， $\cos{\alpha}_i=\lim\limits_{\Delta \pmb{s}\to0}\frac{\Delta x_i}{\Delta \pmb{s}}(i=1,2,···,n)$ ，表示方向 $\pmb{s}$ 与坐标轴 $xi夹 \pmb{x}_i夹$ 角的余弦值。 $[\nabla f(\pmb{x}_k)]$ 是函数 $f$ 在 $xk \pmb{x}_k$ 处的梯度向量，表达式为
$[\nabla f(\pmb{x}_k)]^T=[\frac{\partial f}{\partial x_{k1}}\vert _{\pmb{x}_k},\frac{\partial f}{\partial x_{k2}}\vert _{\pmb{x}_k},···,\frac{\partial f}{\partial x_{kn}}\vert _{\pmb{x}_k}]$
$\pmb{e}=[\cos{\alpha _1},\cos{\alpha _2},···,\cos{\alpha _n}]$ ，且 $\Vert \pmb{e} \Vert=1$ ，所以 $\pmb{e}$ 是 $\pmb{s}$ 方向上的单位向量。

在 $xk \pmb{x_k}$ 处，由于梯度向量是固定的，而 $\pmb{e}$ 的模值为1，所以变化率的值仅随梯度向量和 $\pmb{e}$ 之间的相对空间关系变化。当两者为同一方向时，变化率为最大正值；当两者为相反方向时，变化率为最小负值。

在最速下降法中，就设定
$\pmb{d}_k=-[\nabla f(\pmb{x}_k)]$

牛顿法

看起来，最速下降法已经非常优秀了，毕竟都已经沿着让函数下降最快的方向了，还能更好的设计方案嘛？

答案是有的。单从下一步来看，负梯度方向确实是最好的；但是如果看两步呢？两次负梯度方向的矢量和能否通过一次计算得到？甚至是，出现比两次负梯度方向矢量和更优的方向？

下面看一下牛顿法是如何解决以上问题的。

要看两步，就需要用到 $\pmb{x}$ 的二次项。针对任意函数 $f(\pmb{x})$ ，使用泰勒公式展开，并保留二次项

$f(\pmb{x})=f(\pmb{x_k})+[\nabla f(\pmb{x}_k)]^T[\pmb{x}-\pmb{x_k}]+\frac{1}{2}[\pmb{x}-\pmb{x_k}]^T\pmb{H}(\pmb{x}_k)[\pmb{x}-\pmb{x_k}]$

其中， $\pmb{H}(\pmb{x}_k)$ 为海森矩阵。

上式的一阶导数为
$\nabla f(\pmb{x})=[\nabla f(\pmb{x}_k)]+\pmb{H}(\pmb{x}_k)[\pmb{x}-\pmb{x_k}]$
令导数值为0，并写成迭代形式，得到
$\pmb{x}_{k+1}=\pmb{x}_k-[\pmb{H}(\pmb{x}_k)]^{-1}[\nabla f(\pmb{x}_k)]$
以上即为牛顿法。相比最速下降法，牛顿法在 $[\nabla f(\pmb{x}_k)]$ 的前面，多了一项 $[\pmb{H}(\pmb{x}_k)]^{-1}$ 。

牛顿法因为利用了泰勒展开式，所以当 $xk \pmb{x}_k$ 接近（局部）最优解时，收敛速度非常快。

拟牛顿法

既然牛顿法相比最速下降法，可以理解为多看了一步，那是不是照葫芦画瓢，再多看几步，然后不断更新迭代方向呢？原则上是可以的，但是牛顿法已经有自己的问题了：（1）函数 $f(\pmb x)$ 必须二阶可导；（2） $\pmb{H}$ 和 $H−1 \pmb{H}^{-1}$ 的计算过程较为复杂。再多看几步，对函数 $f(\pmb x)$ 的要求只会更高，所以更靠谱的优化方案是去降低 $H−1 \pmb{H}^{-1}$ 的计算复杂度。

接下来要介绍的拟牛顿法，其主要思路是通过构造复杂度低的函数来替代 $H−1 \pmb{H}^{-1}$ ，从而降低复杂度。

把牛顿法推导过程中用到的一阶导数公式再抄一遍，并写成迭代形式

$\nabla f(\pmb{x}_{k+1})=[\nabla f(\pmb{x}_k)]+\pmb{H}(\pmb{x}_k)[\pmb{x}_{k+1}-\pmb{x_k}]$
令 $\pmb{y}_k=[\nabla f(\pmb{x}_{k+1})]-[\nabla f(\pmb{x}_k)]$ ， $\pmb{s}_k=\pmb{x}_{k+1}-\pmb{x_k}$ ，上式可以化简为
$\pmb{s}_k=[\pmb{H}(\pmb{x}_k)]^{-1}\pmb{y}_k$

令 $[\pmb{H}(\pmb{x}_k)]^{-1}=\pmb{G}(\pmb{x}_k)$ ，并构造迭代公式
$\pmb{G}_{k+1}=\pmb{G}_{k}+\pmb{E}_{k}$
如果设定 $G0 \pmb{G}_0$ 为单位阵，只需要确定 $Ek \pmb{E}_{k}$ ，便可以替代海森矩阵了。

令 $\pmb{E}_{k}=\alpha \pmb{\mu}_k \pmb{\mu}_k^T+\beta \pmb{\nu}_k \pmb{\nu}_k^T$ ，其中 $μk \pmb{\mu}_k$ 和 $νk \pmb{\nu}_k$ 均为 $n\times1$ 向量(构造成两项的原因会在后面描述)。
$\pmb{s}_k=(\pmb{G}_{k}+\alpha \pmb{\mu}_k \pmb{\mu}_k^T+\beta \pmb{\nu}_k \pmb{\nu}_k^T)\pmb{y}_k$
上式做一下变换
$\alpha (\pmb{\mu}_k^T \pmb{y}_k)\pmb{\mu}_k+\beta (\pmb{\nu}_k^T \pmb{y}_k)\pmb{\nu}_k = \pmb{s}_k-\pmb{G}_{k}\pmb{y}_k$
其中， $μkTyk \pmb{\mu}_k^T \pmb{y}_k$ 和 $νkTyk \pmb{\nu}_k^T \pmb{y}_k$ 为实数， $\pmb{s}_k-\pmb{G}_{k}$ 为 $n\times1$ 向量， $\alpha$ 和 $\beta$ 可以任意选取，我们取特殊的一组： $\pmb{\mu}_k=r\pmb{G}_{k}\pmb{y}_k$ ， $\pmb{\nu}_k=\theta\pmb{s}_k$ ，此时 $Ek \pmb{E}_k$ 变为
$\pmb{E}_{k}=\alpha r^2\pmb{G}_{k}\pmb{y}_k\pmb{y}_k^T\pmb{G}_{k}^T+\beta \theta^2\pmb{s}_k\pmb{s}_k^T$

将 $μk \pmb{\mu}_k$ 和 $νk \pmb{\nu}_k$ 带入上上式
$\alpha r^2(\pmb{y}_k^T\pmb{G}_{k}^T \pmb{y}_k)\pmb{G}_{k}\pmb{y}_k+\beta \theta^2(\pmb{s}_k^T \pmb{y}_k)\pmb{s}_k = \pmb{s}_k-\pmb{G}_{k}\pmb{y}_k$
化简一下
$[\alpha r^2(\pmb{y}_k^T\pmb{G}_{k}^T \pmb{y}_k)\pmb{G}_{k}+1]\pmb{G}_{k}\pmb{y}_k+[\beta \theta^2\pmb{s}_k^T \pmb{y}_k-1]\pmb{s}_k=0$
由于 $Gkyk \pmb{G}_{k}\pmb{y}_k$ 和 $sk \pmb{s}_k$ 是任意的，所以需要 $\alpha r^2(\pmb{y}_k^T\pmb{G}_{k}^T \pmb{y}_k)\pmb{G}_{k}+1=0$ 和 $\beta \theta^2\pmb{s}_k^T \pmb{y}_k-1=0$ ，得到
$\alpha r^2=-\frac{1}{\pmb{y}_k^T\pmb{G}_{k}^T \pmb{y}_k},\beta \theta^2=\frac{1}{\pmb{s}_k^T \pmb{y}_k}$
从上上式可以看出，如果 $Ek \pmb{E}_k$ 在构造时只有一项，是无法保证恒等式的。

所以，最终的拟牛顿法迭代公式为
$\pmb{G}_{k+1}=\pmb{G}_{k}-\frac{\pmb{G}_{k}\pmb{y}_k\pmb{y}_k^T\pmb{G}_{k}^T}{\pmb{y}_k^T\pmb{G}_{k}^T \pmb{y}_k}+\frac{\pmb{s}_k\pmb{s}_k^T}{\pmb{s}_k^T \pmb{y}_k}$
相比 $H−1 \pmb{H}^{-1}$ ，上式的计算不仅复杂度低，而且不需要 $f(\pmb x)$ 为二阶可导。

梯度类算法原理：最速下降法、牛顿法和拟牛顿法

文章目录

算法结构

最速下降法

牛顿法

拟牛顿法

猜你喜欢