优化算法：牛顿法（Newton法）

学习深度学习时遇到二阶优化算法牛顿法，查阅了相关书籍进行记录。

$\bigtriangledown f(x) ,g(x)$ ：函数 $f(x)$ 的梯度向量 $g(x) = (\frac{\partial f}{\partial x_{1}},...,\frac{\partial f}{\partial x_{n}})^{T}$

$\bigtriangledown ^{2}f(x),G(x)$ :函数 $f(x)$ 的Hessian矩阵，其第i行第j列的元素为 $\frac{\partial ^{2}f(x)}{\partial x_{i}\partial x_{j}}$ .

假设 $f(x)$ 是二阶连续可微函数， $x=(x_{1},...,x_{n})^{T}$ 。最速下降法因为迭代路线呈锯齿形，固收敛速度慢，仅是线性的。最速下降法本质使用线性函数去近似目标函数。要得到快速的算法，需要考虑对目标函数的高阶逼近。Newton法就是通过二次模型近似目标函数得到的。

一、Newton法理论

设 $x_{k}$ 为 $f(x)$ 的极小点 $x^{\ast }$ 的一个近似，将 $f(x)$ 在 $x_{k}$ 附近做泰勒展开，有

$f(x)\approx q_{k}(x)=f_{k}+g{_{k}}^{T}(x-x_{k})+\frac{1}{2}(x-x_{k})^{T}G_{k}(x-x_{k})$

其中 $f_{k}=f(x_{k})$ , $g_{k}=g(x_{k})$ , $G_{k}=G(x_{k})$ ,若 $G_{k}$ 正定，则 $q_{k}(x)$ 有唯一极小值点，将它取为 $x^{\ast }$ 的下一次近似 $x_{k+1}$ 。由一阶必要条件知， $x_{k+1}$ 应满足 $\bigtriangledown q_{k}(x_{k+1}) = 0$ ，

即 $G_{k}(x_{k+1}-x_{k})+g_{k}=0$ 。

令 $x_{k+1}=x_{k}+p_{k}$ , (1)

其中 $p_{k}$ 应满足 $G_{k}p_{k} = -g_{k}$ 。 (2)

方程(2)被称为Newton方程，从中解出 $p_{k}$ 并带入(1)式得

$x_{k+1}=x_{k}-G_{k}^{-1}g_{k}$ (3)

我们称（1）（2）为牛顿迭代公式，有时也称（3）为牛顿迭代公式。

二、算法

算法1 Newton法

给定控制误差 $\varepsilon > 0$ 。

Step1 取初始点 $x_{0}$ ，令 $k=0$ 。

Step2 计算 $g_{k}$ 。

Step3 若 $\left \| g_{k} \right \|\leq \varepsilon$ ，则 $x^{*} = x_{k}$ ，结束；否则计算 $G_{k}$ ，并由（2）式解出 $p_{k}$ 。

Step4 令 $x_{k+1}=x_{k}+p_{k}$ ， $k=k+1$ ，转Step2。

优缺点：

优点：（1）如果 $G^{*}$ 正定且初始点合适，算法是二阶收敛的。

（2）对正定二次函数，迭代一次就可得到极小点。

缺点：（1）对多数问题算法不是整体收敛的。

（2）在每次计算中需要计算 $G_{k}$ 。

（3）每次迭代需要求解线性方程组 $G_{k}p_{k} = -g_{k}$ ，，该方程组有可能是奇异的或病态的（有时 $G_{k}$ 非正定）， $p_{k}$ 可能不是下降方向。

（4）收敛于鞍点或极大点的可能性并不小。

三、Newton法的改进

针对缺点（1）（4），在由 $x_{k}$ 求 $x_{k+1}$ 时，不直接利用公式（1）（2）进行迭代，而是以 $p_{k}$ 作为搜索方向进行一维搜索，求步长 $\alpha _{k}$ ，例如，令 $\alpha _{k}$ 满足精确一维搜索，即

$f(x_{k} + \alpha _{k}p_{k})=\underset{\alpha \geq 0}{min}f(x_{k}+\alpha p_{k})$ 。

而令

$x_{k+1}=x_{k}+\alpha _{k}p_{k}$ ，

这样往往可以克服缺点（1）和（4），这种方法通常称为阻尼Newton法。

在阻尼Newton法的基础上，我们再考虑克服缺点（3），可以证明，当 $G_{k}$ 正定时，由 $p_{k} = -G_{k}^{-1}g_{k}$ 确定的方向是下降方向。但是当 $G_{k}$ 奇异或非正定时，通常由（2）得不到下降方向，为此，用正定矩阵 $M_{k}$ 取代（2）中的 $G_{k}$ ，由