牛顿法及拟牛顿法笔记

牛顿法

二阶优化算法又称为牛顿法，牛顿法是微积分学中，通过迭代以求解可微函数f的零点的一种算法，而在最优化中，牛顿法通常被运用于求解一个二次可微函数f的一阶导数f’的零点x，同时也是f的驻点。因此从另一个角度而言，应用于最优化中的牛顿法是求解函数 f(x)的最小值或最大值的一种算法。

考虑无约束最优化问题

m i n_{x \in R^{n}} f (x)

$min _{x \in R^n} f(x)$
其中

x^{*}

$x^*$ 是目标函数的最小点

假设f(x)具有二阶连续偏导数,设第k次迭代值是 $x^{(k)}$ ,则可以将f(x)在 $x^{(k)}$ 处进行泰勒二次展开:

f (x) = f (x^{(k)}) + g_{k}^{T} (x - x^{(k)}) + 1 / 2 (x - x^{(k)}) H (x^{(k)}) (x - x^{(k)})

$f(x) = f(x^{(k)}) + g_k^T(x - x^{(k)}) + 1/2(x-x^{(k)})H(x^{(k)})(x-x^{(k)})$

其中 $g_k^T = \nabla f(x^{(k)}), H(x^{(k)})$ 是f(x)的Hessain矩阵

H (x) = [\frac{\partial^{2} f (x)}{\partial x_{i} \partial x_{j}}]

$H(x) = [\frac {\partial ^2f(x)} { \partial x_i \partial x_j}]$

函数f(x)有极值的必要条件是极值点一阶导数是0

那么对f(x)的泰勒展开求导并令导数为0得到如下,并令 $x^{(k+1)}$ 为下一次迭代的值

g_{k} + H_{k} (x^{(k + 1)} - x^{(k)}) = 0

$g_k + H_k (x^{(k+1)} - x^{(k)}) = 0$

那么就可以得到

x^{(k + 1)} = x^{(k)} + p_{k}

$x^{(k+1)} = x^{(k)} + p_k$
其中,

p_{k}

$p_k$ 包含了这次的迭代方向,他由下面这个式子决定

H_{k} p_{k} = - g_{k}

$H_k p_k = -g_k$
如果

H_{k}

$H_k$ 可逆,则有

x^{(k + 1)} = x^{(k)} - H_{k}^{- 1} g_{k}

$x^{(k+1)} = x^{(k)} - H_k ^{-1}g_k$

上述牛顿法需要计算Hessain的逆,通常这一计算需要耗费很多时间,而我们需要的只是Hessain里面所包含的曲率信息.所以拟牛顿想法就是构造出一个矩阵包含我们需要的信息
相关的拟牛顿方法有DFP, BFGS, Broyden类算法

这里我们看牛顿法中需要满足的条件

g_{k} + H_{k} (x^{(k + 1)} - x^{(k)}) = g_{k + 1} => H_{k} (x^{(k + 1)} - x^{(k)}) = g_{k + 1} - g_{k}

$g_k + H_k (x^{(k+1)} - x^{(k)}) = g_{k+1} => H_k (x^{(k+1)} - x^{(k)}) = g_{k+1} - g_k$

现在记 $y_k = g_{k+1} - g_{k}, \delta _k = x^{(k+1)} - x^{(k)}$ ,得到如下

y_{k} = H_{k} δ_{k}

$y_k = H_k \delta _k$ 或者

H_{k}^{- 1} y_{k} = δ_{k}

$H _k ^{-1} y_k = \delta _k$

这两个式子就称为拟牛顿条件
在构造的时候Hessain的逆需要时正定的,因为这样可以保证求出的p是下降方向
拟牛顿Hessain逆需要是正定的

构造思路

DFP1
DFP2

BFGS1
BFGS2

详情看《统计学习方法》中的附录B

参考文献
1. 《统计学习方法》 -李航