无约束最优化问题的解法

我们希望得到 $min_x f(x)$ ，我们把 $f(x)$ 泰勒展开可得

f (x + Δ) = f (x) + \nabla f (x)^{T} Δ + \frac{1}{2} Δ^{T} \nabla^{2} f (x) Δ + O (Δ^{3})

$f(x+\Delta)=f(x)+\nabla f(x)^T\Delta+\frac{1}{2}\Delta^T \nabla^2 f(x)\Delta+O(\Delta^3)$

牛顿法

当 $\nabla^2 f(x)$ 已知时，对 $f(x+\Delta)$ 求导，令倒数为0，可得

Δ = - [\nabla^{2} f (x)]^{- 1} \nabla f (x)

$\Delta = -[\nabla^2 f(x)]^{-1}\nabla f(x)$

那么我们可以通过迭代公式

x_{t + 1} = x_{t} - [\nabla^{2} f (x)]^{- 1} \nabla f (x)

$x_{t+1}=x_t-[\nabla^2 f(x)]^{-1}\nabla f(x)$

求解最优化问题，有时我们加个小于1的阻尼系数来增加算法的稳定性（阻尼牛顿法）：

x_{t + 1} = x_{t} - η [\nabla^{2} f (x)]^{- 1} \nabla f (x)

$x_{t+1}=x_t-\eta[\nabla^2 f(x)]^{-1}\nabla f(x)$

牛顿法的缺点也很明显：

$\nabla^2 f(x)$ 不容易求
$\nabla^2 f(x)$ 的逆不容易求
$\nabla^2 f(x)$ 太占空间

拟牛顿法

由牛顿法可知， $x$ 每步的前进方向 $\Delta$ 满足 $\nabla f(x)=\Delta \nabla^2 f(x)$ ，且 $\nabla f(x_{t+1}) \approx \nabla f(x_t)+\nabla^2 f(x_t)[x_{t+1}-x_t]$ 。
替代变量 $B_{t+1}=\nabla^2 f(x_t), D_{t+1}=[\nabla^2 f(x_t)]^{-1}$ ，再令 $s_t=x_{t+1}-x_t,y_t=\nabla f(x_{t+1})-\nabla f(x_t)$ ，那么有：

$y_t=B_{t+1}s_t$
$s_t=D_{t+1}y_t$

令 $D_{t+1}=D_t+\Delta D_t=D_t+P_t+Q_t$ ，那么

D_{t + 1} y_{t} = D_{t} y_{t} + P_{t} y_{t} + Q_{t} y_{t}

$D_{t+1}y_t=D_ty_t+P_ty_t+Q_ty_t$

令 $P_ty_t=-D_ty_t,Q_ty_t=s_t$ ，我们有

P_{t} = - \frac{D_{t} y_{t} y_{t}^{T} D_{t}^{T}}{y_{t}^{T} D_{t}^{T} y_{t}}, Q_{t} = \frac{s_{t} s_{t}^{T}}{s_{t}^{T} y_{t}}

$P_t=-\frac{D_ty_ty_t^TD_t^T}{y_t^TD_t^Ty_t},Q_t=\frac{s_ts_t^T}{s_t^Ty_t}$

D_{t + 1} = D_{t} - \frac{D_{t} y_{t} y_{t}^{T} D_{t}^{T}}{y_{t}^{T} D_{t}^{T} y_{t}} + \frac{s_{t} s_{t}^{T}}{s_{t}^{T} y_{t}}

$D_{t+1}=D_t-\frac{D_ty_ty_t^TD_t^T}{y_t^TD_t^Ty_t}+\frac{s_ts_t^T}{s_t^Ty_t}$

类似，由 $s_t=D_{t+1}y_t$ 可得 $B_{t+1}=B_t-\frac{B_ts_ts_t^TB_t^T}{s_t^TB_t^Ts_t}+\frac{y_ty_t^T}{y_t^Ts_t}$ $

将 $D_t$ 和 $B_t^{-1}$ 作为 $H^{-1}(x_t)$ 的近似替代，求解最优化问题，也可以将两者加权平均作为 $H^{-1}(x_t)$ 替代，也可以在 $H^{-1}g$ 的方向进行一维搜索，寻找最小值，加快收敛速度。

优选法+Steepest Descent（最速下降法）

优选法

黄金分割数 $g=\frac{\sqrt{5}-1}{2}$ 有个很好的性质: $\frac{1}{g}=\frac{g}{1-g}$
寻找一个单峰函数的极值，可以利用这个性质尽可能少的测试。在区间 $(a,b)$ 内取两点 $x_1,x_2$ 。显然：

当 $f(x_1)>f(x_2)$ 时，极大点在 $(a,x_2)$ 的范围内，区间 $(x_2,b)$ 舍去。
当 $f(x_1)<f(x_2)$ 时，极大点在 $(x_1,b)$ 的范围内，区间 $(a,x_1)$ 舍去。
当 $f(x_1)=f(x_2)$ 时，极大点在 $(x_1,x_2)$ 的范围内，区间 $(a,x_1),(x_2,b)$ 舍去。

与此类比的是二分法，二分法一般用来求根（只需要与0比大小）

Steepest Descent

在梯度方向搜索最小值，迭代至收敛：

$\lambda_t = argmin_{\lambda}f(x_t-\lambda \nabla f(x_t))$
$x_{t+1} = x_t-\lambda_t\nabla f(x_t)$

显然一般情况下 $\nabla f(x_t)\bot \nabla f(x_{t+1})$
缺点：只在局部范围内具有“最速”性质。对整体求解过程而言，它的下降非常缓慢。锯齿状的路线使得下降速度在最优点附近很慢。
优点：对于凸问题，最速下降法具有整体收敛性——对初始点没有特殊要求。

Conjugate gradient（共轭梯度下降法）

共轭梯度下降法是求解二次型形式的目标函数的算法，目标函数为：

m i n_{x} [\frac{1}{2} x^{T} Q x - b^{T} x]

$min_x[\frac{1}{2}x^TQx-b^Tx]$

$Q$ 为正定矩阵
定义：如果非零向量 $x,y$ 满足 $y^TQx=0$ 则称 $x,y$ 为Q-conjugate
那么对于 $x=\sum_ia_id_i$ , $d_i$ 是一组Q-conjugate的基底
那么显然有 $min_x[\frac{1}{2}x^TQx-b^Tx]=min_{a_i}[\frac{1}{2}(\sum_ia_id_i)^TQx-b^T(\sum_ia_id_i)]=min_{a_i}[\sum_i\frac{1}{2}(a_i^2d_i^TQd_i)^TQx-a_ib^Td_i]$
此时相当于对每个 $a_i$ 求函数的极值，可得 $a_i=\frac{b^Td_i}{d_i^TQd_i}$
问题是如何找到这一组 $d_i$

算法步骤：

初始化 $x_0$ ，求 $d_0=\nabla f(x_0)$ ，若 $d_0=0$ 则 $x_0$ 即为解。
迭代：

$\lambda_t=argmin_{\lambda}f(x_t+\lambda d_t)=-\frac{d_t^T\nabla f(x_t)}{d_t^TQd_t}$
$x_{t+1}=x_t+\lambda_td_t$
$d_{t+1}=-\nabla f(x_{t+1})+\gamma_td_t,s.t.,d_{t+1}^TQd_t=0.\Longrightarrow \gamma_t=\frac{d_t^TQ\nabla f(x_{t+1})}{d_t^TQd_t}$

至多经过n轮迭代找到最优值。与此类似的方法有坐标轮换法(univariate search technique)，坐标上升法

性质证明

证明 $d_{t+1}^TQd_i=0,i=0,1,2,...,t$
数学归纳法：假设 $d_0,d_1,...,d_t$ 是Q-conjugate的基底
由迭代步骤可知 $f(x_i+\lambda_i d_i)$ 是 $f(x_i+\lambda d_i)$ 的极小值，那么 $\frac{\partial f(x_i+\lambda d_i)}{\lambda}|_{\lambda=\lambda_i}=0$ ，可得 $d_i^T\nabla f(x_{i+1})=0$ ，继而

d_{i}^{T} \nabla f (x_{t + 1}) = d_{i}^{T} [Q x_{t + 1} + b] = d_{i}^{T} [Q x_{i} + \sum_{k} λ_{k} Q d_{k} + b] = d_{i}^{T} \nabla f (x_{i + 1}) = 0

$d_i^T\nabla f(x_{t+1})=d_i^T[Qx_{t+1}+b]=d_i^T[Qx_i+\sum_k\lambda_k Q d_k+b]=d_i^T\nabla f(x_{i+1})=0$

λ_{i} d_{i} Q \nabla f (x_{t + 1}) = (x_{t + 1}^{T} - x_{t}^{T}) Q \nabla f (x_{t + 1}) = [\nabla f (x_{i + 1}) - \nabla f (x_{i})]^{T} Q \nabla f (x_{t + 1})

$\lambda_i d_iQ\nabla f(x_{t+1})=(x_{t+1}^T-x_{t}^T)Q\nabla f(x_{t+1})=[\nabla f(x_{i+1})-\nabla f(x_{i})]^TQ\nabla f(x_{t+1})$

= [γ_{i} d_{i} - d_{i + 1} + d_{i} - g a m m a_{i - 1} d_{i - 1}]^{T} \nabla f (x_{t + 1}) = 0

$=[\gamma_id_i-d_{i+1}+d_{i}-gamma_{i-1}d_{i-1}]^T\nabla f(x_{t+1})=0$

d_{i}^{T} Q d_{t + 1} = - d_{i}^{T} Q \nabla f (x_{t + 1}) + γ_{t} d_{t}^{T} Q d_{t} = 0

$d_i^TQd_{t+1}=-d_i^TQ\nabla f(x_{t+1})+\gamma_td_t^TQd_t=0$

Levenberg-Marquardt（LM算法）

目标函数为： $min_x\frac{1}{2}f^T(x)f(x)$

泰勒展开可得： $f(x+\Delta) \approx f(x)+\nabla f(x) \Delta$

那么 $f^T(x+\Delta)f(x+\Delta) \approx [f(x)+\nabla f(x) \Delta]^T[f(x)+\nabla f(x) \Delta]$

可得 $\frac{1}{2}\frac{\partial f^T(x+\Delta)f(x+\Delta)}{\partial \Delta}=\nabla f^T(x)[f(x)+\nabla f(x) \Delta]$

令导数为0可得： $\Delta=-[\nabla f^T(x)\nabla f(x)]^{-1}[\nabla f^T(x)f(x)]$

Levenberg-Marquardt迭代方程：

x_{t + 1} = x_{t} - [\nabla f^{T} (x) \nabla f (x) + μ I]^{- 1} [\nabla f^{T} (x) f (x)]

$x_{t+1}=x_t-[\nabla f^T(x)\nabla f(x)+\mu I]^{-1}[\nabla f^T(x)f(x)]$

0阶问题和-1阶问题

Nesterov Y, Spokoiny V. Random Gradient-Free Minimization of Convex Functions[M]. Springer-Verlag New York, Inc. 2017.

思路来源：

$U_b$ 是在单位球 $B$ 内的均匀分布，定义

f^{μ} (ω) = E_{v \sim U_{b}} [f (ω + μ v)] = \frac{1}{α (n)} \int_{B} f (ω + μ v) d v

$f^{\mu}(\omega)=E_{v\sim U_b}[f(\omega+\mu v)]=\frac{1}{\alpha(n)}\int_B f(\omega+\mu v)dv$

$\alpha(n)$ 是 $n$ 维空间球的体积， $f^{\mu}(\omega)$ 一般被称为smoothing function
Suppose $f\in C_L^1$ .Bounds

| f^{μ} (ω) - f (ω) | \leq \frac{μ^{2} L}{2}

$|f^{\mu}(\omega)-f(\omega)|\leq \frac{\mu^2L}{2}$

| \nabla f^{μ} (ω) - \nabla f (ω) | \leq \frac{μ n L}{2}

$|\nabla f^{\mu}(\omega)-\nabla f(\omega)|\leq \frac{\mu nL}{2}$

$L$ 是利普西斯常数

Stochastic Zeroth Order Oracle

objective function:

f (x) = E [F (x, ξ)] = \int F (x, ξ) d P (ξ)

$f(x)=E[F(x,\xi)]=\int F(x,\xi)dP(\xi)$
定义:

G_{μ} (x, v) = \frac{n}{μ} [F (x + μ v, ξ^{1}) - F (x, ξ^{2})] v

$G_{\mu}(x,v)=\frac{n}{\mu}[F(x+\mu v,\xi^1)-F(x,\xi^2)]v$

Lemma 1: $E_v[G_{\mu}(x,v)]=\nabla f^{\mu}(x)$ 。如果 $f$ 和 $F$ 满足一定的条件， $E_v[|G_{\mu}(x,v)|^2]$ 有界。二阶矩有界可能意味着 $G_{\mu}(x,v)$ 的平均能够很快接近 $E_v[G_{\mu}(x,v)]$ 。

Stochastic Optimization : One Sample at a Time
Parameters: $\eta,\mu>0$ and a convex set $X\subseteq R^n$
Initialize: $x_1=0$
For $t=1,...,T$
Pick $v_t\sim B_b$
At $x_t+\mu v_t$ and $x_t$ ,receive $F(x_t+\mu v_t,\xi^1),F(x_t,\xi^2)$ respectively
Assemble $G_{\mu}(x_t,v_t)=\frac{n}{\mu}[F(x_t+\mu v_t,\xi^1)-F(x_t,\xi^2)]v_t$
Update $x_{t+1}=x_t-\eta G_{\mu}(x_t,v_t)$
End for

证明了 $x_T-x^*=O(T^{-\frac{1}{3}})$

可以优化的地方：变步长 $\eta$ 和精度 $\mu$

启发式优化方法

启发式方法指人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题时,利用过去的经验,选择已经行之有效的方法，而不是系统地、以确定的步骤去寻求答案。启发式优化方法种类繁多，包括经典的模拟退火方法（不断扰动择优）、遗传算法（遗传变异淘汰）、蚁群算法（最优路径，短的路上蚂蚁释放的信息素多）以及粒子群算法（随机解，踪两个“极值”来更新范围，不断缩小范围）等等。

还有一种特殊的优化算法被称之多目标优化算法，它主要针对同时优化多个目标（两个及两个以上）的优化问题，这方面比较经典的算法有NSGAII算法、MOEA/D算法以及人工免疫算法等。

优化问题综述(二)其他无约束最优化算法