1.牛顿法

统计学习方法有了具体形式后就转换为最优化问题。有时最优化问题存在解析解，可以由公式计算，多数情况下没有解析解，需要用数值计算的方法求解，牛顿法和拟牛顿法是求解无约束最优化问题的常用方法，收敛速度快。
牛顿法是迭代算法，每一步需要求解目标函数的海塞矩阵的逆矩阵。

1.1 算法推导

无约束最优化问题如下：
$\min_{x \in R^n} f(x)..........(1)$
一元函数在 $x_k$ 处的泰勒展开式为
$f(x)=f(x_k)+(x-x_k)f'(x_k)+\frac{1}{2!}(x-x_k)^2f''(x_k)+o(n)$
二元函数在 $(x_k,y_k)$ 处的泰勒展开式为
$f(x,y)=f(x_k,y_k)+(x-x_k)f'_x(x_k,y_k)+(y-y_k)f'_y(x_k,y_k)\\+\frac{1}{2!}(x-x_k)^2f''_{xx}(x_k,y_k)+\frac{1}{2!}(x-x_k)(y-y_k)f''_{xy}(x_k,y_k)\\ +\frac{1}{2!}(x-x_k)(y-y_k)f''_{yx}(x_k,y_k)+\frac{1}{2!}(y-y_k)^2f''_{yy}(x_k,y_k)+o(n)$
多元函数在 $\vec x_k$ 处的泰勒展开式为
$f(x^{(1)},x^{(2)},...,x^{(n)})=f(x_k^{(1)},x_k^{(2)},...x_k^{(n)})\\ +\sum_{i=1}^n(x^{(i)}-x_k^{(i)})f'_{x^{(i)}}(x_k^{(1)},x_k^{(2)},...x_k^{(n)})+ \\ \frac{1}{2!}\sum_{i,j=1}^n(x^{i}-x_k^{(ii)})(x^{(j)}-x_k^{(j)})f_{ij}''(x_k^{(1)},x_k^{(2)},...x_k^{(n)})+o(n)$
假设f(x)有二阶连续偏导数，若第k次迭代值为 $x_k$ ，则可以将f(x)在 $x_k$ 附近二阶泰勒展开，并将泰勒展开写成矩阵的形式，有
$f(x)=f(x_k)+[\nabla f(x_k)]^T(x-x_k)+\frac{1}{2!}(x-x_k)^TH(x_k)(x-x_k)+o(n)..........(2)$
其中x为列向量， $[\nabla f(x_k)]$ 为f(x)的梯度向量在 $x_k$ 的值， $H(x_k)$ 是f(x)的海塞矩阵在点 $x_k$ 的值，其形式如下
$H(x)=\left[\frac{\partial^2f}{\partial x_i \partial x_j}\right]_{n\times n}..........(3)$
我们知道一元函数取得极值点的条件是导数等于0，二元函数取得极值点的条件是一阶导数等于0，并且二阶导数要大于0，对应到上面的泰勒展开，只要 $(x-x_k)^TH(x_k)(x-x_k)>0$ 即可，而这个满足线性代数中二次型的特征，当H矩阵为正定矩阵时，该不等式成立。即

当海塞矩阵H为正定矩阵时，临界点 $x_k$ 为局部极小值。
当海塞矩阵H为负定矩阵时，临界点 $x_k$ 为局部极大值。
当海塞矩阵H为不定矩阵时，临界点 $x_k$ 不是极值。

牛顿法利用这一点，每次迭代从点 $x_k$ 开始，求目标函数的极小值点，作为第k+1次迭代值 $x_{k+1}$ ，则 $x_{k+1}$ 满足
$\nabla f(x_{k+1})=0..........(4)$
式子2求导得，
$\nabla f(x)=\nabla f(x_k)+H(x_k)(x-x_k)..........(5)$
求导公式可以参考【机器学习总结】向量、矩阵求导公式
则式子4等价于
$\nabla f(x_k)+H(x_k)(x_{k+1}-x_k)=0.........(6)$
则
$x_{k+1}=x_k-H(x_k)^{-1}\nabla f(x_k).........(7)$
牛顿法以式子7进行迭代求得极小值，其流程总结如下：

取初始点 $x_0$ ，令k=0
计算 $\nabla f(x_k)$ ，若 $||\nabla f(x_k)|| \lt \epsilon$ ，则停止计算，得到近似解 $x^*=x_k$
计算 $H(x_k)$ 并根据 $x_{k+1}=x_k-H(x_k)^{-1}\nabla f(x_k)$ 求得 $x_{k+1}$
令k=k+1，转2

2. 拟牛顿法

牛顿法中每轮迭代都需要计算海塞矩阵的逆矩阵，计算比较复杂，考虑用一个n阶矩阵 $G_k=G(x_k)$ 来近似代替 $H_k^{-1}=H^{-1}(x_k)$ 。
式子5中，将 $x=x_{k+1}$ 代入，有
$\nabla f(x_{k+1})-\nabla f(x_k)=H_k(x_{k+1}-x_k).........(8)$
令 $y_k=\nabla f(x_{k+1})-\nabla f(x_k)$ ， $\delta_k=x_{k+1}-x_k$ ，则
$y_k=H_k\delta_k..........(9)$
式子(9)称为拟牛顿条件。
如果 $H_k$ 是正定矩阵，则可以保证牛顿法搜索方向 $p_k=-H_k^{-1}\nabla f(x_k)$ 是下降方向。由式子7有
$x=x_k+\lambda p_k=x_k-\lambda H_k^{-1}\nabla f(x_k)..........(10)$
则f(x)在 $x_k$ 的泰勒展开式可以近似为
$f(x)=f(x_k)-\lambda [\nabla f(x_k)]^T H_k^{-1}\nabla f(x_k)..........(11)$
由于H的逆矩阵为正定矩阵，故有 $[\nabla f(x_k)]^T H_k^{-1}\nabla f(x_k)\gt 0$ ，当 $\lambda$ 是充分小的正数时，总有 $f(x) \lt f(x_k)$ ，则 $p_k= [\nabla f(x_k)]^T H_k^{-1}\nabla f(x_k)$ 是下降方向。
拟牛顿法寻找 $G_k$ 来近似 $H^{-1}$ ， $G_k$ 满足以下拟牛顿条件
$G_{k+1}y_k=\delta_k..........(12)$

2.1 DFP算法

DFP算法假设每步迭代中，有
$G_{k+1}=G_k+P_k+Q_k..........(13)$
则
$G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k..........(14)$
为了满足拟牛顿条件(12)，可以让
$P_ky_k=\delta_k\\ Q_ky_k=-G_ky_k$
事实上可以取
$P_k=\frac{\delta_k\delta_k^T}{\delta^Ty_k}.........(15)\\ Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}..........(16)$
得到 $G_{k+1}$ 的迭代公式
$G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta^Ty_k}--\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}..........(17)$
可以证明如果 $G_0$ 是正定的，则迭代过程中每个矩阵都是正定的。
DFP算法总结如下：

选定初始点 $x_0$ ，取 $G_0$ 为正定对称矩阵，置k=0
计算 $\nabla f(x_k)$ ，若 $||\nabla f(x_k)|| \lt \epsilon$ ，则停止计算，得到近似解 $x^*=x_k$
置 $p_k=-G_k\nabla f(x_k)$
一维搜索，求 $\lambda _k$ 使得 $f(x_k+\lambda p_k)$ 最小
置 $x_{k+1}=x_k+\lambda_kp_k$
计算 $\nabla f(x_{k+1})$ ，若 $||\nabla f(x_{k+1})|| \lt \epsilon$ ，则停止计算，得到近似解 $x^*=x_{k+1}$ ，否则按式子 $G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta^Ty_k}--\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$ 计算得到 $G_{k+1}$
置k=k+1，转3

2.2 BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法

除了可以用 $G_k$ 逼近 $H^{-1}$ 之外，我们可以用 $B_k$ 来逼近 $H$ ，此时拟牛顿条件为
$B_{k+1}\delta_k=y_k..........(18)$
跟DFP算法类似， $B_{k+1}$ 的迭代公式为
$B_{k+1}=B_k+\frac{y_ky_k^T}{y^T\delta_k}--\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}.........(19)$
BFGS算法总结如下：

选定初始点 $x_0$ ，取 $G_0$ 为正定对称矩阵，置k=0
计算 $\nabla f(x_k)$ ，若 $||\nabla f(x_k)|| \lt \epsilon$ ，则停止计算，得到近似解 $x^*=x_k$
由 $B_kp_k=-\nabla f(x_k)$ 求出 $p_k$
一维搜索，求 $\lambda _k$ 使得 $f(x_k+\lambda p_k)$ 最小
置 $x_{k+1}=x_k+\lambda_kp_k$
计算 $\nabla f(x_{k+1})$ ，若 $||\nabla f(x_{k+1})|| \lt \epsilon$ ，则停止计算，得到近似解 $x^*=x_{k+1}$ ，否则按式子 $B_{k+1}=B_k+\frac{y_ky_k^T}{y^T\delta_k}--\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$ 计算得到 $B_{k+1}$
置k=k+1，转3

2.3 Broyden类算法

迭代公式(19)经过两次应用Sherman-Morrison公式可以得到
$G_{k+1}=\left(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k}\right)G_k\left(I-\frac{\delta_ky_k^T}{\delta_k^Ty_k}\right)^T+\frac{\delta_ky_k^T}{\delta_k^Ty_k}.........(20)$
称为BFGS算法关于 $G_k$ 的迭代公式，将式子(20)得到的 $G_{k+1}$ 记作 $G^{BFGS}$ ,将DFP算法得到的G_{k+1}记作 $G^{DFP}$ ，它们都满足拟牛顿条件，则它们的线性组合也同样满足拟牛顿条件，并且也是正定的。
$G_{k+1}=aG^{DFP}+(1-a)G^{BFGS}..........(21)$
其中 $0\le a \le 1$ ，这样就得到了一类拟牛顿算法称为Broyden类算法。

【机器学习算法】牛顿法和拟牛顿法

文章目录