深入浅出最优化(3) 最速下降法与牛顿法

1 下降算法中的搜索方向

1.1 下降方向的判定

根据泰勒展开 $f(x_k+\alpha_kd_k)=f(x_k)+\alpha_kg^T_kd_k+o(||\alpha_kd_k||^2)$ ，忽略极小项后，我们可以在 $x_k$ 点处找到 $f (x)$ 的一条切线 $s(\alpha)=f(x_k)+g_k^Td_k \alpha$ ，这条切线的斜率是 $g_k^Td_k$ 。我们不难得出结论，如果 $g_k^Td_k<0$ ，则该方向为下降方向。

1.2 下降算法的收敛性

前面我们给出过下降算法的收敛性的定义：对于迭代序列 $x^{(k)}$ ，k趋近于无穷时一阶偏导向量的范数为0。之后我们在介绍精确搜索与非精确搜索时均强调了搜索方向必须是下降方向。事实上，如果步长由精确搜索或者Wolfe-Powell搜索产生，而每一步的搜索方向都是下降方向，则必定满足下降算法的收敛性。（证明见附录1）

因此接下来我们在研究计算搜索方向的算法时，最重要的前提就是计算出的搜索方向应当是下降方向。而步长计算则使用精确搜索、Wolfe-Powell搜索或强条件的Wolfe-Powell搜索。

2 最速梯度下降法

2.1 最速梯度下降法步骤

既然我们要寻找下降方向，我们首先想到的就是梯度的反方向。函数沿着梯度方向数值上升最快，那么沿着梯度的反方向数值下降也就最快。所以，对于每一步，将负梯度方向作为下降方向的方法，又叫最速梯度下降法。

在这里插入图片描述

步骤：

给定初始点 $x_0\in R^n$ ，精度 $\epsilon>0$ ，令 $k = 0$
若 $||\nabla f(x_k)||\leq\epsilon$ ，则得解 $x_k$ ，算法终止
计算 $d_k=-\nabla f(x_k)$
计算步长 $\alpha_k$
令 $x_{k+1}=x_k+\alpha_kd_k,k=k+1$ ，转步2

2.2 性能评估

收敛性：因为每一步均产生下降方向，所以必定收敛。
收敛速度：用正定二次函数逼近点附近的函数。若该正定二次函数黑森矩阵的所有特征值相等，则超线性收敛；其余时候线性收敛。（证明见附录2）
二次终止性：显然满足
计算量：小，只需要计算梯度
储存空间：小，只需要储存梯度

2.3 实战测试

对于本文集的第一篇文章深入浅出最优化(1) 最优化问题概念与基本知识中提出的最小二乘问题， $x_1,x_2,x_3,x_4$ 的初值均在 $[- 2, 2]$ 的范围内随机生成，总共生成100组起点。统计迭代成功（在1000步内得到最优解且单次步长搜索迭代次数不超过1000次）的样本的平均迭代步数、平均迭代时间和得到的最优解及残差平方和最小值。

平均迭代步数	平均迭代时间	最优解	残差平方和最小值
234.68	3.31s	$x_1=0.1755~x_2=0.3717~x_3=0.0439~ x_4=0.2290$	$2.3065\times10^{-4}$

3 阻尼牛顿法

3.1 阻尼牛顿法步骤

古典牛顿法的思想是用近似二次函数的极小点作为原问题的新的近似解。 $f (x)$ 在 $x_k$ 处二阶泰勒展开式为 $f(x)=f(x_k)+\nabla f(x_k)^T(x-x_k)+\frac{1}{2}(x-x_k)^T\nabla^2f(x_k)(x-x_k)+o(||x-x_k||^2)$ ，二次近似函数 $Q(x)=f(x_k)+\nabla f(x_k)^T(x-x_k)+\frac{1}{2}(x-x_k)^T\nabla^2f(x_k)(x-x_k)$ ，且 $\nabla Q(x)=\nabla f(x_k)+\nabla^2f(x_k)(x-x_k)$ ，若 $\nabla^2f(x_k)$ 正定，则 $Q (x)$ 的极小点为 $\nabla f(x_k)+\nabla^2f(x_k)(x-x_k)$ 的解，把二次函数的极小点作为 $x_{k+1}$ ，则 $x_{k+1}=x_k-\nabla^2f(x_k)^{-1}\nabla f(x_k)$ ，称该迭代公式为古典牛顿法的迭代公式，其中 $d_k=-\nabla^2f(x_k)^{-1}\nabla(x_k)$ 为 $x_k$ 处的牛顿方向。

在这里插入图片描述

如果目标函数就是二次函数，则向着牛顿方向步长为1的搜索可以直接搜索到局部最优解。但如果二次函数仅仅是目标函数的近似，则步长需要使用Wolfe-Powell搜索来求取，这时候算法被称为阻尼牛顿法。

步骤：

定初始点 $x_0\in R^n$ ，精度 $\epsilon>0$ ，令 $k = 0$
若 $||\nabla f(x_k)||\leq\epsilon$ ，则得解 $x_k$ ，算法终止
$d_k=-\nabla^2f(x_k)^{-1}\nabla(x_k)$
计算步长 $\alpha_k$
令 $x_{k+1}=x_k+\alpha_kd_k,k=k+1$ ，转步2

3.2 性能评估

收敛性：当且仅当每一步都有目标函数的黑森矩阵，也就是近似二次函数的黑森矩阵正定时，牛顿方向才是下降方向，所以收敛性不能保证。
收敛速度：若在最优解附近二阶连续可微且最优解处梯度为0、黑森矩阵正定，则算法超线性收敛。特别地，若目标函数在最优解处二阶李普希兹连续，则算法二阶收敛。（证明见附录3）
二次终止性：显然满足
计算量：大，需要计算黑森矩阵，在变量数目多时计算量大
储存空间：大，需要储存黑森矩阵，在变量数目多时需要储存空间大

4 牛顿-梯度下降混合法

4.1 牛顿-梯度下降混合法步骤

由于我们不能保证牛顿法产生下降方向，但又希望能够借助牛顿法的二阶收敛性提高最速梯度下降法的收敛速度，我们可以将两者进行融合。对于牛顿法无法产生下降方向的时刻，使用最速梯度下降法来产生下降方向。

步骤：

定初始点 $x_0\in R^n$ ，精度 $\epsilon>0$ ，令 $k = 0$
若 $||\nabla f(x_k)||\leq\epsilon$ ，则得解 $x_k$ ，算法终止
$d_k=-\nabla^2f(x_k)^{-1}\nabla(x_k)$
若 $\nabla f(x_k)^Td_k\geq0$ ，取 $d_k=-\nabla f(x_k)$
计算步长 $\alpha_k$
令 $x_{k+1}=x_k+\alpha_kd_k,k=k+1$ ，转步2

4.2 实战测试

对于本文集的第一篇文章深入浅出最优化(1) 最优化问题概念与基本知识中提出的最小二乘问题， $x_1,x_2,x_3,x_4$ 的初值均在 $[- 2, 2]$ 的范围内随机生成，总共生成100组起点。统计迭代成功率（在1000步内得到最优解且单次步长搜索迭代次数不超过1000次）、平均迭代步数、平均迭代时间和得到的最优解及残差平方和最小值。

平均迭代步数	平均迭代时间	最优解	残差平方和最小值
56.0	1.02s	$x_1=0.1926~x_2=0.1816~x_3=0.1158~ x_4=0.1321$	$1.5397\times10^{-4}$

代码实现

本博客所有代码在https://github.com/HarmoniaLeo/optimization-in-a-nutshell开源，如果帮助到你，请点个star，谢谢这对我真的很重要！

你可以在上面的GitHub链接或本文集的第一篇文章深入浅出最优化(1) 最优化问题概念与基本知识中找到Function.py和lagb.py

最速下降法：

import numpy as np
from Function import Function	#定义法求导工具
from lagb import *	#线性代数工具库

n=2	#x的长度

def myFunc(x):  #x是一个包含所有参数的列表
    return x[0]**2 + 2*x[1]**2 + 2*x[0] - 6*x[1] +1 #目标方程

x=np.zeros(n)	#初值点
rho=0.6
beta=1
sigma=0.4
e=0.001
k=0
tar=Function(myFunc)
while tar.norm(x)>e:
    d=-tar.grad(x)
    a=1
    if not (tar.value(x+a*d)<=tar.value(x)+rho*a*dot(turn(tar.grad(x)),d) and dot(turn(tar.grad(x+a*d)),d)>=sigma*dot(turn(tar.grad(x)),d)):
        a=beta
        while tar.value(x+a*d)>tar.value(x)+rho*a*dot(turn(tar.grad(x)),d):
            a*=rho
        while dot(turn(tar.grad(x+a*d)),d)<sigma*dot(turn(tar.grad(x)),d):
            a1=a/rho
            da=a1-a
            while tar.value(x+(a+da)*d)>tar.value(x)+rho*(a+da)*dot(turn(tar.grad(x)),d):
                da*=rho
            a+=da
    x+=a*d
    k+=1
    print(k)
print(x)

牛顿-梯度下降混合法：

import numpy as np
from Function import Function	#定义法求导工具
from lagb import *	#线性代数工具库
from scipy import linalg

n=2	#x的长度

def myFunc(x):  #x是一个包含所有参数的列表
    return x[0]**2 + 2*x[1]**2 + 2*x[0] - 6*x[1] +1 #目标方程

x=np.zeros(n)	#初值点
rho=0.6
beta=1
e=0.001
sigma=0.4
k=0
tar=Function(myFunc)
while tar.norm(x)>e:
    try:
        d=linalg.solve(tar.hesse(x),-tar.grad(x))
        if tar.value(x)-tar.value(x+d)<0:
            d=-tar.grad(x)
    except Exception:
        d=-tar.grad(x)
    a=1
    if not (tar.value(x+a*d)<=tar.value(x)+rho*a*dot(turn(tar.grad(x)),d) and dot(turn(tar.grad(x+a*d)),d)>=sigma*dot(turn(tar.grad(x)),d)):
        a=beta
        while tar.value(x+a*d)>tar.value(x)+rho*a*dot(turn(tar.grad(x)),d):
            a*=rho
        while dot(turn(tar.grad(x+a*d)),d)<sigma*dot(turn(tar.grad(x)),d):
            a1=a/rho
            da=a1-a
            while tar.value(x+(a+da)*d)>tar.value(x)+rho*(a+da)*dot(turn(tar.grad(x)),d):
                da*=rho
            a+=da
    x+=a*d
    k+=1
    print(k)
print(x)

附录

记向量 $d_k$ 和 $-\nabla f(x_k)$ 的夹角为 $\theta_k$ ，则有 $cos=\frac{-\nabla f(x_k)^Td_k}{||\nabla f(x_k)||~||d_k||}$

给出下面的基本假设： $f (x)$ 连续可微且有下界，且 $\nabla f(x)$ 李普希兹连续，即存在常数 $L > 0$ ，使得 $||\nabla f(x)-\nabla f(y)||\leq L||x-y||$

则有定理，若序列 ${x_k\}$ 由下降算法产生，其中步长 $\alpha_k$ 由精确搜索或Wolfe-Powell搜索产生，则 $\displaystyle\sum_{k=0}^∞||\nabla f(x_k)||^2cos^2\theta_k<+∞$ 。特别地，若存在常数 $\delta>0$ 使得 $cos\theta_k\geq\delta$ ，则 $\displaystyle\lim_{k→∞}||\nabla f(x_k)||=0$ 。这个定理说明了产生的方向与负梯度方向夹角小于 $\frac{\pi}{2}$ 时，可以保证算法收敛性。

下面根据假设证明该定理：由Wolfe-Powell搜索条件及假设，我们有 $-(1-\sigma)\nabla f(x_k)^Td_k\leq[\nabla f(x_k+\alpha_kd_k)-\nabla f(x_k)]^Td_k\leq\alpha_kL||d_k||^2$ ，即可得 $\alpha_k\geq-\frac{1-\sigma}{L}\frac{\nabla f(x_k)^Td_k}{||d_k||^2}=-c_1\frac{\nabla f(x_k)^Td_k}{||d_k||^2}$ 。这里 $c_1=\frac{1-\sigma}{L}$ ，进一步由Wolfe-Powell搜索第一个条件，得 $f(x_k+\alpha_kd_k)-f(x_k)\leq-\rho c_1\frac{[\nabla f(x_k)^Td_k]^2}{||d_k||^2}=-\rho c_1||\nabla f(x_k)||^2cos^2\theta_k$

将上面的不等式左右两边从 $k = 0$ 到 $\infty$ 相加，并注意到 $f (x)$ 有下界，可以得到定理第一条成立，由无穷级数收敛的必要条件可以得到第二条定理成立。

最速梯度下降法收敛速度证明：https://blog.csdn.net/weixin_43010548/article/details/97619095
牛顿法收敛速度证明：

提出定理：设 $f$ 在 $x^*\in R^n$ 的某个邻域内二次连续可微且 $x^*$ 满足 $\nabla f(x^*)=0$ ， $\nabla^2 f(x^*)$ 正定，则存在常数 $\delta>0$ ，使得当 $x_0\in U_\delta(x^*)=\{x|||x-x^*||<\delta\}$ 时，由单位步长牛顿法 $x_{k+1}=x_k-\nabla^2 f(x_k)^{-1}\nabla f(x_k),k=0,1,2,...$ 产生的序列超线性收敛于 $x^*$ ，此外，若 $\nabla^2f$ 在 $x^*$ 李普希兹连续，则序列$ {x_k} $二次收敛于$ x^*$。

在这里插入图片描述