深度学习/机器学习入门基础数学知识整理（四）：拟牛顿法、BFGS、L_BFDS、DFP、共轭梯度法

拟牛顿法

拟牛顿法可以克服牛顿法计算量大的缺点，不在计算目标函数的 Hesse 矩阵，而是构造一个近似 Hesse 矩阵的对称正定矩阵，根据近似矩阵来优化目标函数，不同的近似构造 Hesse 的方法决定了不同的拟牛顿法，构造 Hesse 矩阵是需要满足拟牛顿条件的，拟牛顿条件是这样求得的，首先将 f(x) 在 $x_{k+1}$ 处做二阶泰勒展开(忽略高阶项)：

f (x) = f (x_{k + 1}) + \nabla f (x_{k + 1}) (x - x_{k + 1}) + \frac{1}{2} (x - x_{k + 1})^{T} \nabla^{2} f (x_{k + 1}) (x - x_{k + 1})

$f(x) = f(x_{k+1}) + \nabla f(x_{k+1}) (x-x_{k+1})+ \frac{1}{2} (x –x_{k+1})^T\nabla^2 f(x_{k+1} )(x-x_{k+1})$

注意在这个式子中， $x$ 是变量，而 $x_{k+1}$ 是一个值，对 $x$ 求导得到：

\nabla f (x) = 0 + \nabla f (x_{k + 1}) + H_{k + 1} (x - x_{k + 1})

$\nabla f(x) = 0 + \nabla f(x_{k+1}) + H_{k+1}(x -x_{k+1})$ 整理得到：

g = g_{k + 1} + H_{k + 1} (x - x_{k + 1})

$g = g_{k+1}+ H_{k+1}(x -x_{k+1})$
令

x = x_{k}

$x=x_k$ ，整理可得

g_{k + 1} - g_{k} = H_{k + 1} (x_{k + 1} - x_{k})

$g_{k+1} – g_k = H_{k+1} (x_{k+1} – x_k)$
这个便是拟牛顿条件了，迭代过程中对

H_{k + 1}

$H_{k+1}$ 做出约束，根据约束构造一个近似矩阵

B_{k + 1}

$B_{k+1}$ ,来模拟 Hesse 矩阵就可以了，为了简便起见，引入记号

s_{k}

$s_k$ 与

y_{k}

$y_k$ ，令

s_{k} = x_{k + 1} - x_{k}, y_{k} = g_{k + 1} - g_{k}

$s_k = x_{k+1} –x_k , y_k = g_{k+1} –g _k$

y_{k} = B_{k + 1} \cdot s_{k}

$y_k = B_{k+1} \cdot s_k$
因为牛顿法中的迭代方向为

- H^{- 1} \cdot g

$-H^{-1} \cdot g$ ，所以令

D_{k + 1} = H_{k + 1}^{- 1}

$D_{k+1} = H_{k+1}^{-1}$ ，拟牛顿条件还可以写作：

s_{k} = D_{k + 1} \cdot y_{k}

$s_k = D_{k+1} \cdot y_k$

拟牛顿法本身是一类算法，下面介绍一下BFGS，算是比较著名的方法了：

BFGS算法(Broyden–Fletcher–Goldfarb–Shanno)[3]

BFGS 是一种拟牛顿方法，通过迭代构建近似 Hesse 矩阵，省去了求解 Hesse 的复杂的步骤，而且 BFGS 构造出来的近似 Hesse 矩阵一定是正定的，这完全克服了牛顿法的缺陷，虽然搜索方向不一定最优，但始终朝着最优的方向前进的。首先初始化 Hesse 矩阵 $B_0=I$ ，接下来每次迭代对矩阵 $B_k$ 进行更新即可：

B_{k + 1} = B_{k} + Δ B_{k}, k = 1, 2, \dots

$B_{k+1} = B_k+ \Delta B_k , \ k = 1,2,…$

迭代构建近似矩阵的关键是矩阵 ΔBk 的构造了，将其写作：

Δ B_{k} = α u u^{T} + β v v^{T}

$\Delta B_k = \alpha uu^T + \beta vv^T$
这里的向量 u 和 v 是待定的，知道了这两个向量，就可以构造构造 ΔBk 了，且这样构造出的矩阵是对称的，根据拟牛顿条件：

\begin{aligned} y_{k} & = B_{k + 1} s_{k} \\ = (B_{k} + Δ B_{k}) s_{k} \\ = (B_{k} + α u u^{T} + β v v^{T}) s_{k} \\ = B_{k} s_{k} + (α u^{T} s_{k}) \cdot u + (β v^{T} s_{k}) \cdot v \end{aligned}

$\begin{aligned} y_k &= B_{k+1} s_k \\ &= (B_k + \Delta B_k)s_k \\ &= (B_k + \alpha uu^T + \beta vv^T)s_k \\ &= B_k s_k + (\alpha u^Ts_k) \cdot u+ (\beta v^Ts_k) \cdot v \end{aligned}$
这里

α u^{T} s_{k}

$αu^Ts_k$ 与

β v^{T} s k

$βv^Tsk$ 均为实数，代表了在 u 与 v 方向的拉伸程度，为了计算简单，做如下赋值运算：

α u^{T} s_{k} = 1, β v^{T} s_{k} = - 1

$\alpha u^Ts_k = 1 , \ \beta v^Ts_k = –1$
代入上式便可得：

u - v = y_{k} - B_{k} s_{k}

$u - v = y_k – B_ks_k$
这就得到得到了 u 与 v 的一个近似:

u = y_{k}, v = B_{k} s_{k}

$u = y_k , \ v = B_k s_k$
继而求 α 与 β 的值

α = \frac{1}{y^{T} s_{k}}, β = - \frac{1}{(B_{k} s_{k})^{T} s_{k}} = - \frac{1}{s_{k}^{T} B_{k} s_{k}}

$\alpha = \frac{1}{y^Ts_k}, \beta= -\frac{1}{(B_ks_k)^Ts_k} = -\frac{1}{s_k^TB_ks_k}$

α 、 β 、 u 与 v都求得后，便得到了 ΔBk 的更新公式：

Δ B_{k} = \frac{y_{k} y_{k}^{T}}{y_{k}^{T} s_{k}} - \frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}}

$\Delta B_k = \frac{y_ky_k^T}{y_k^Ts_k} – \frac{B_ks_ks_k^TB_k}{s_k^TB_ks_k}$

因此 $B_k$ 的迭代公式是：

B_{k + 1} = B_{k} + \frac{y_{k} y_{k}^{T}}{y_{k}^{T} s_{k}} - \frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}}

$B_{k+1} = B_k +\frac{y_ky_k^T}{y_k^Ts_k} – \frac{B_ks_ks_k^TB_k}{s_k^TB_ks_k}$

由与牛顿法的方向是 $–H^{−1}_kg_k$ 的，所以最好可以直接计算出 $B^{−1}_k$ ，这样就不用再进行求逆运算了，直接根据Sherman-Morrison 公式：可得关于矩阵B 的逆的更新方式：

B_{k + 1}^{- 1} = B_{k}^{- 1} + (\frac{1}{s_{k}^{T} y_{k}} + \frac{y_{k}^{T} B_{k}^{- 1} y_{k}}{(s_{k}^{T} y_{k})^{2}}) s_{k} s_{k}^{T} - \frac{1}{s_{k}^{T} y_{k}} (B_{k}^{- 1} y_{k} s_{k}^{T} + s_{k} y_{k}^{T} B_{k}^{- 1})

$B^{-1}_{k+1} = B^{-1}_k + \left (\frac{1}{s_k^Ty_k}+\frac{y_k^TB_k^{-1}y_k}{(s_k^Ty_k)^2} \right )s_ks_k^T - \frac{1}{s_k^Ty_k} \left (B_k^{-1}y_ks_k^T + s_ky_k^TB^{-1}_k \right)$

$B^{−1}_k$ 这里用 $D_k$ 来表示，给出最终的 BFGS 算法[3]：
这里写图片描述

停止条件为人为设定，可设定为两次迭代目标函数差的阈值或者梯度差的阈值，或者梯度本身（的模）小于阈值。

其中，步骤2.2搜索步长的方法采用[7]：
这里写图片描述

比较好理解，就是在搜索方向p上，找到步长 $\alpha$ 满足Armijo条件，初始步长 $\alpha_0=1$ 是一种常用的设定。

DFP算法

DFP算法也是类似的思想，可以参考[4]，写的很详细，我这里简单贴一个图以备查阅：

这里写图片描述

稍微看下步3，选用的方法就是上面介绍过的Backtracking line search算法，只是选用的符号不一样而已，内容是一样的。非负整数m就是代表了迭代次数。

L-BFGS [3]

工业中实用的拟牛顿法的便是 L-BFGS （Limited-memory BFGS）了，对于近似 Hesse 矩阵 $D_k$ ：

D_{k + 1} = D_{k} + (\frac{1}{s_{k}^{T} y_{k}} + \frac{y_{k}^{T} D_{k} y_{k}}{(s_{k}^{T} y_{k})^{2}}) s_{k} s_{k}^{T} - \frac{1}{s_{k}^{T} y_{k}} (D_{k} y_{k} s_{k}^{T} + s_{k} y_{k}^{T} D_{k})

$D_{k+1} = D_k + \left (\frac{1}{s_k^Ty_k}+\frac{y_k^T D_ky_k}{(s_k^Ty_k)^2} \right )s_ks_k^T - \frac{1}{s_k^Ty_k}(D_ky_ks_k^T + s_ky_k^T D_k )$

而是存储向量序 $s_k$ , $y_k$ ,而且向量序列也不是都存，而是存最近的 m 次的， m 为人工指定，计算 $D_k$ 时，只用最新的 m 个向量模拟计算即可。在第 k 次迭代，算法求得了 $x_k$ ，并且保存的曲率信息为 $(si,yi)_{k−1}^{k−m}$ 。为了得到 $H_k$ ，算法每次迭代均需选择一个初始的矩阵 $H_0^K$ ，这是不同于 BFGS 算法的一个地方，接下来只用最近的 m 个向量对该初始矩阵进行修正，实践中 $H_0^K$ 的设定通常如下：

\begin{aligned} H_{k}^{0} & = r_{k} I \\ r_{k} & = \frac{s {k - 1}^{T} y_{k - 1}}{y_{k - 1}^{T} y_{k - 1}} \end{aligned}

$\begin{aligned} H_k^0 &=r_kI \\ r_k &=\frac{s{k-1}^Ty_{k-1}}{y_{k-1}^Ty_{k-1}} \end{aligned}$

其中 $r_k$ 表示比例系数，它利用最近一次的曲率信息来估计真实海森矩阵的大小，这就使得当前步的搜索方向较为理想，而不至于跑得“太偏”，这样就省去了步长搜索的步骤，节省了时间。在L-BFGS算法中，通过保存最近 m 次的曲率信息来更新近似矩阵的这种方法在实践中是很有效的，虽然 L-BFGS 算法是线性收敛，但是每次迭代的开销非常小，因此 L-BFGS 算法执行速度还是很快的，而且由于每一步迭代都能保证近似矩阵的正定，因此算法的鲁棒性还是很强的。

总结下 BFGS 与 L-BFGS 的： BFGS算法在运行的时候，每一步迭代都需要保存一个 n×n 的矩阵，现在很多机器学习问题都是高维的，当 n 很大的时候，这个矩阵占用的内存是非常惊人的，并且所需的计算量也是很大的，这使得传统的 BFGS 算法变得非常不适用。而 L-BFGS 则是很对这个问题的改进版，从上面所说可知，BFGS 算法是通过曲率信息 $(s_k,y_k)$ 来修正 $H_k$ 从而得到 $H_{k+1}$ ，L-BFGS 算法的主要思路是：算法仅仅保存最近 m 次迭代的曲率信息来计算 $H_{k+1}$ 。这样，我们所需的存储空间就从 n×n 变成了 2m×n 而通常情况下 m << n。

其他拟牛顿算法[6]

这里写图片描述

共轭梯度法

共轭梯度法是介于梯度下降法和牛顿法，拟牛顿法之间的算法[6]。

待补充….

参考资料

[1]https://blog.csdn.net/batuwuhanpei/article/details/51979831
[2]https://blog.csdn.net/u011722133/article/details/53518134
[3]无约束优化方法(梯度法-牛顿法-BFGS- L-BFGS）
[4]优化算法——拟牛顿法之DFP算法
[5]牛顿法与拟牛顿法
[6]牛顿法，拟牛顿法，共轭梯度法
[7]【原创】回溯线搜索 Backtracking line search
[8]【原创】牛顿法和拟牛顿法 – BFGS, L-BFGS, OWL-QN