最优化方法总结

参考书：最优化、矩阵分析

1. Jacobi和Hesse矩阵

1.1 Jacobi矩阵

假设 $F:R^n \rightarrow R^m$ ，是一个从 $n$ 维欧氏空间映射到到 $m$ 维欧氏空间的函数。其雅可比矩阵是从 $R^n$ 到 $R^m$ 的线性映射，其重要意义在于它表现了一个多变数向量函数的最佳线性逼近。

设

x = [x_{1}, x_{2}, . . ., x_{n}]^{T}

$\boldsymbol x=[x_1,x_2,...,x_n]^T$

f_{1} (x), f_{2} (x), . . ., f_{m} (x)

$f_1(x), f_2(x), ...,f_m(x)$ 都是

x

$\boldsymbol x$ 的实函数，令

f (x) = [f_{1} (x), f_{2} (x), . . ., f_{m} (x)]^{T}

$\boldsymbol f(x) = [f_1(x), f_2(x),...,f_m(x)]^T$
则

f (x)

$\boldsymbol f(x)$ 的导数为

m

$m$ 行

n

$n$ 列的矩阵（

m

$m$ 维列向量对

n

$n$ 维行向量求导），即Jacobi矩阵

\nabla f (x) = [\begin{matrix} \frac{\partial f_{1}}{\partial x_{1}} & \frac{\partial f_{1}}{\partial x_{2}} & . . . & \frac{\partial f_{1}}{\partial x_{n}} \\ \frac{\partial f_{2}}{\partial x_{1}} & \frac{\partial f_{2}}{\partial x_{2}} & . . . & \frac{\partial f_{2}}{\partial x_{n}} \\ : & : & : & : \\ \frac{\partial f_{m}}{\partial x_{1}} & \frac{\partial f_{m}}{\partial x_{2}} & . . . & \frac{\partial f_{m}}{\partial x_{n}} \end{matrix}]

$\nabla \boldsymbol f(x)=\begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & ... & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & ... & \frac{\partial f_2}{\partial x_n} \\ : &: &:&:\\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & ... & \frac{\partial f_m}{\partial x_n} \end{bmatrix}$

如果 $p$ 是 $R^n$ 中的一点， $\boldsymbol f$ 在 $p$ 点可微分，根据高等微积分， $\nabla \boldsymbol f(x)$ 是在这点的导数。在此情况下，这个线性映射即 $\boldsymbol f$ 在点 $p$ 附近的最优线性逼近，也就是说当 $\boldsymbol x$ 足够靠近点 $p$ 时，我们有

f (x) \approx f (p) + \nabla f (x) (x - p)

$\boldsymbol f(x) \approx \boldsymbol f(p) + \nabla \boldsymbol f(x)(x-p)$
因为

\nabla f (x) (x - p)

$\nabla \boldsymbol f(x)(x-p)$ 存在，所以雅可比矩阵是

m

$m$ 维列向量对

n

$n$ 维行向量求导.

1.2 Hesse矩阵

Hesse矩阵是一个多变量实值函数，如 $f(x_1,x_2,...,x_n)$ ，的二阶偏导数（二阶偏导数都存在）组成的方块矩阵

设 $m$ 向量值函数 $\boldsymbol g(x)$ ，其在 $\boldsymbol x$ 处的导数，这里是 $m$ 维行向量对 $n$ 维列向量求导

\nabla g (x) = [\begin{matrix} \frac{\partial g_{1}}{\partial x_{1}} & \frac{\partial g_{2}}{\partial x_{1}} & . . . & \frac{\partial g_{m}}{\partial x_{1}} \\ \frac{\partial g_{1}}{\partial x_{2}} & \frac{\partial g_{2}}{\partial x_{2}} & . . . & \frac{\partial g_{m}}{\partial x_{2}} \\ : & : & : & : \\ \frac{\partial g_{1}}{\partial x_{n}} & \frac{\partial g_{2}}{\partial x_{n}} & . . . & \frac{\partial g_{m}}{\partial x_{n}} \end{matrix}]

$\nabla \boldsymbol g(x)=\begin{bmatrix} \frac{\partial g_1}{\partial x_1} & \frac{\partial g_2}{\partial x_1} & ... & \frac{\partial g_m}{\partial x_1} \\ \frac{\partial g_1}{\partial x_2} & \frac{\partial g_2}{\partial x_2} & ... & \frac{\partial g_m}{\partial x_2} \\ : &: &:&:\\ \frac{\partial g_1}{\partial x_n} & \frac{\partial g_2}{\partial x_n} & ... & \frac{\partial g_m}{\partial x_n} \end{bmatrix}$

\nabla g (x)^{T}

$\nabla \boldsymbol g(x)^T$ 为

g (x)

$g(x)$ 的 Jacobi矩阵，令

g (x) = \nabla f (x)

$\boldsymbol g(x)=\nabla f(x)$ ，代入，

g_{1} (x) = \frac{\partial f (x)}{\partial x_{1}}, g_{2} (x) = \frac{\partial f (x)}{\partial x_{2}}, . . ., g_{n} (x) = \frac{\partial f (x)}{\partial x_{n}}

$g_1(x)=\frac {\partial f(x)}{\partial x_1}, g_2(x)=\frac {\partial f(x)}{\partial x_2},...,g_n(x)=\frac {\partial f(x)}{\partial x_n}$
得到，

\nabla [\nabla f (x)] = [\begin{matrix} \frac{\partial^{2} f}{\partial x_{1} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & . . . & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2} \partial x_{2}} & . . . & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ : & : & : & : \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & . . . & \frac{\partial^{2} f}{\partial x_{n} \partial x_{n}} \end{matrix}]

$\nabla [\nabla f(x)]=\begin{bmatrix} \frac{\partial ^2 f}{\partial x_1 \partial x_1} &\frac{\partial ^2 f}{\partial x_1 \partial x_2}& ... &\frac{\partial ^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial ^2 f}{\partial x_2 \partial x_1} &\frac{\partial ^2 f}{\partial x_2\partial x_2}& ... &\frac{\partial ^2 f}{\partial x_2\partial x_n} \\ : &: &:&:\\ \frac{\partial ^2 f}{\partial x_n \partial x_1} &\frac{\partial ^2 f}{\partial x_n \partial x_2}& ... &\frac{\partial ^2 f}{\partial x_n \partial x_n} \end{bmatrix}$

多元函数 $f(x)$ 的一阶导数是它的梯度 $\nabla f(x)$ ，二阶导数是它的Hesse矩阵 $\nabla ^2f(x)$ ，当 $f(x)$ 的所有二阶偏导数连续时，

\frac{\nabla^{2} f (x)}{\partial x_{i} \partial x_{j}} = \frac{\nabla^{2} f (x)}{\partial x_{j} \partial x_{i}} ， i, j = 1, 2, . . ., n

$\frac {\nabla ^2f(x)}{\partial x_i \partial x_j}=\frac {\nabla ^2f(x)}{\partial x_j \partial x_i}，i,j=1,2,...,n$
这种情况下 Hesse矩阵是 对称的

扫描二维码关注公众号，回复： 1088248 查看本文章

2. 凸规划

2.1 凸集

设集合 $C \subseteq R^n$ ，如果 $C$ 中任取两点的任意组合仍然属于 $C$ ，那么称集合 $C$ 为凸集
直观地看，任取集合中两点所连成的线段仍然属于这个集合，这个集合即为凸集

2.2 凸函数

设 $f:C \subseteq R^n \rightarrow R^1$ ，其中 $C$ 为凸集，若对于 $C$ 中的任意两点 $x_1, x_2$ 和任一对满足 $a_1+a_2=1$ 的非负数 $a_1, a_2$ ，总有

f (a_{1} x_{1} + a_{2} x_{2}) \leq a_{1} f (x_{1}) + a_{2} f (x_{2})

$f(a_1x_1+a_2x_2) \leq a_1f(x_1)+a_2f(x_2)$
则称

f

$f$ 是定义在凸集

C

$C$ 上的凸函数
若

a_{1}, a_{2}

$a_1, a_2$ 都是正实数，则有

f (a_{1} x_{1} + a_{2} x_{2}) < a_{1} f (x_{1}) + a_{2} f (x_{2})

$f(a_1x_1+a_2x_2) < a_1f(x_1)+a_2f(x_2)$
则称

f

$f$ 是定义在凸集

C

$C$ 上的严格凸函数

2.3 凸规划

定义在凸集上的凸函数的极小化问题是凸规划问题

2.4 二次函数

函数

f (x) = \frac{1}{2} x^{T} Q x + b^{T} x + c

$f(x) = \frac{1}{2}x^TQx + b^Tx+c$
成为

n

$n$ 元二次函数，其中

Q = [\begin{matrix} q_{11} & q_{12} & . . . & q_{1 n} \\ q_{21} & q_{22} & . . . & q_{2 n} \\ : & : & : & : \\ q_{n 1} & q_{n 2} & . . & q_{n n} \end{matrix}], b = [\begin{matrix} b_{1} \\ b_{2} \\ : \\ b_{n} \end{matrix}]

$Q=\begin{bmatrix} q_{11} & q_{12} & ... & q_{1n} \\ q_{21} & q_{22} & ... & q_{2n}\\ : &: &:&:\\ q_{n1} & q_{n2} & .. & q_{nn} \end{bmatrix}, b=\begin {bmatrix} b_1\\ b_2\\ :\\ b_n\end{bmatrix}$
这里

Q

$Q$ 是对称矩阵，若

Q

$Q$ 是正定的，则

f

$f$ 是正定二次函数
其中，

\nabla^{2} f (x) = Q

$\nabla^2f(x)=Q$ ，由定理[10]知，正定二次函数是严格凸函数

2.5 证明范数是凸函数

见笔记–线性最小二乘的推导

3. 梯度下降法

对正定二次函数

f (x) = \frac{1}{2} x^{T} Q x + b^{T} x + c

$f(x) = \frac{1}{2}x^TQx + b^Tx+c$
对

f (x)

$f(x)$ 求关于

x

$x$ 的梯度，

g (x) = \nabla f (x) = Q x + b

$g(x)= \nabla f(x)=Qx+b$
因此，

g_{k} = g (x_{k}) = Q x_{k} + b

$g_k=g(x_k)=Qx_k+b$
从

x_{k}

$x_k$ 出发，沿着

- g_{k}

$-g_k$ 作直线搜索，以确定

x_{k + 1} ， 即

$x_{k+1}，即$

x_{k + 1} = x_{k} - t_{k} g_{k}

$x_{k+1}=x_k-t_kg_k$
其中

t_{k}

$t_k$ 是最优步长因子

t_{k} = \frac{g_{k}^{T} g_{k}}{g_{k}^{T} Q g_{k}}

$t_k=\frac{g_k^Tg_k}{g_k^TQg_k}$
注意：该公式只能用于求解正定二次函数

4. 牛顿法

由定理1.17，目标函数 $f(x)$ 在 $R^n$ 上具有连续的二阶偏导数，其Hesse矩阵 $\nabla^2f(x)$ 正定

G (x) = \nabla^{2} f (x)

$G(x)=\nabla^2f(x)$
对

f (x)

$f(x)$ 按 Taylor级数展开（ 即对非线性模型线性化）

f (x) \approx Q (x) = f (x_{k}) + g (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} G (x_{k}) (x - x_{k})

$f(x)\approx Q(x)=f(x_k)+g(x_k)^T(x-x_k)+\frac {1}{2}(x-x_k)^TG(x_k)(x-x_k)$
因为

G (x)

$G(x)$ 正定，所以

Q (x)

$Q(x)$ 是

x

$x$ 的正定二次函数，令

\nabla Q (x) = G (x) (x - x_{k}) + g (x_{k}) = 0

$\nabla Q(x) = G(x)(x-x_k)+g(x_k)=0$
得

G (x_{k}) (x - x_{k}) = - g (x_{k})

$G(x_k)(x-x_k)=-g(x_k)$
则得

x_{k + 1}

$x_{k+1}$ ，

x_{k + 1} = x_{k} - G (x_{k})^{- 1} g (x_{k})

$x_{k+1}=x_k-G(x_k)^{-1}g(x_k)$

对于正定二次函数，Newton法迭代一次就可以找到它的极小点.

牛顿法的局限性：
对于表达式很复杂的目标函数，Hesse矩阵很难或不可能求出，不宜使用Newton法，为了解决这个问题，提出了修正Newton法.

5. 最小二乘法

对残差向量(residual vector) $\boldsymbol f(x) = [f_1(x), f_2(x),...,f_m(x)]^T$ ，其中每一个 $f_i(x)$ 构成了一个误差项，对应于vSLAM中构造的观测值与预测值之差，则最小二乘问题的一般形式为

m i n f (x)^{T} f (x) = m i n ‖ f (x) ‖_{2}^{2}

$min \boldsymbol f(x)^T \boldsymbol f(x)=min \| \boldsymbol f(x) \|_2^2$

5.1 最小二乘法分类

线性（linear or ordinary least squares(OLS)）：函数 $f$ 是参数 $θ$ 的线性函数，即 $θ$ 都是一次的，对其求导为常数函数 $f$ 是参数 $θ$ 的线性函数，即 $θ$ 都是一次的，对其求导为常数
非线性（non-linear least squares）：函数 $f$ 是参数 $θ$ 的非线性函数，即 $θ$ 不都是一次的，对其求导不都为常数函数 $f$ 是参数 $θ$ 的非线性函数，即 $θ$ 不都是一次的，对其求导不都为常数

5.2 线性最小二乘

参考：SLAM中的优化理论（一）—— 线性最小二乘
线性最小二乘通常可以通过正规方程、QR 分解、乔姆斯基分解(Cholesky decomposition)和奇异值分解(SVD)等方法求解。

线性最小二乘的解是封闭形式(closed-form)的，即对于 $f(x) =Ax-b$ ，则有 $x=(A^TA)^{−1}A^Tb$ (A不一定为方阵)，推导略，这是使用正规方程的解法

如果 $A^TA$ 正定，一般不用求逆的方式来解，而是使用Cholesky分解或者QR分解的方法来求解
如果 $A^TA$ 不正定，使用SVD分解

5.3 非线性最小二乘

其解不是封闭形式(closed-form)，通常用迭代法求解，如高斯牛顿法

5.3.1 高斯牛顿法

目标函数：

s (x) = f (x)^{T} f (x) = ‖ f (x) ‖^{2}

$s(x)=\boldsymbol f(x)^T \boldsymbol f(x)=\| \boldsymbol f(x)\|^2$
经过

k

$k$ 次迭代已求得

x_{k}

$x_k$ ，现在考虑

x_{x + 1}

$x_{x+1}$ 的求法，与牛顿法基本思想类似，把

f (x)

$\boldsymbol f(x)$ 线性化，区别是，牛顿法使用的二阶泰勒展开，这里是一阶泰勒展开
把

f (x)

$\boldsymbol f(x)$ 的第

i

$i$ 个分量

f_{i} (x)

$f_i(x)$ 在点

x_{k}

$\boldsymbol x_k$ 处作 Talor展开，即

f_{i} (x) \approx f_{i} (x_{k}) + \nabla f_{i} (x_{k}) (x - x_{k}) ， i = 1, 2, . . ., m

$f_i(\boldsymbol x) \approx f_i(\boldsymbol x_k)+\nabla f_i(\boldsymbol x_k)(\boldsymbol x- \boldsymbol x_k)，i=1,2,...,m$
如用向量、矩阵形式表达出来，则上式可写为

f (x) \approx f (x_{k}) + J (x_{k}) (x - x_{k}) ， i = 1, 2, . . ., m

$\boldsymbol f(\boldsymbol x) \approx \boldsymbol f(\boldsymbol x_k)+\boldsymbol J(x_k)(\boldsymbol x- \boldsymbol x_k)，i=1,2,...,m$

J (x)

$J(x)$ 是

f (x)

$\boldsymbol f(\boldsymbol x)$ 在点

x_{k}

$\boldsymbol x_k$ 处的Jacobi矩阵，即 第1部分所讲内容
将

f (x)

$\boldsymbol f(x)$ 代入到目标函数，这是 线性化后的表达式

s (x) \approx ‖ f (x_{k}) + J (x_{k}) (x - x_{k}) ‖^{2}

$s(x) \approx \| \boldsymbol f(\boldsymbol x_k)+\boldsymbol J(x_k)(\boldsymbol x- \boldsymbol x_k)\|^2$
即将非线性最小二乘转化为线性最小二乘的求解.
根据线性最小二乘求解可得，

J (x_{k})^{T} J (x_{k}) (x - x_{k}) = - J (x_{k})^{T} f (x_{k})

$\boldsymbol J(x_k)^T\boldsymbol J(x_k)(\boldsymbol x- \boldsymbol x_k)=-\boldsymbol J(x_k)^T \boldsymbol f(x_k)$
与牛顿法的区别是，这里使用

J (x_{k})^{T} J (x_{k})

$\boldsymbol J(x_k)^T\boldsymbol J(x_k)$ 代替了牛顿法中 Hesse矩阵，省略了计算H矩阵的麻烦.

5.3.2 修正高斯牛顿法

5.3.3 列文伯格-马夸尔特方法

<未完待续.……>
@leatherwang