最优化计算方法

本文记录了博主在学习《最优化计算方法》时的总结，主要侧重于与深度学习相关的内容，更新于2018.09.17。
书目信息：《最优化计算方法》，黄正海等著，出版时间2015.02，科学出版社。

最优化计算方法
- 第1章引论

第1章引论

最优化问题概述

最优化要解决的问题：在一定限制条件下使得所关心的指标达到最优。
最优化问题的基本数学模型：

$\begin{aligned} min & f (x) \\ s . t . & c_{i} (x) \geq 0, \forall i \in I := {1, 2, \cdot \cdot \cdot, p}, \\ c_{i} (x) = 0, \forall i \in E := {p + 1, p + 2, \cdot \cdot \cdot, m} \end{aligned}$ $\begin{split} &\min \quad &f(x) \\ &s.t. & c_i(x) \geq0, \forall i \in I:=\{ 1,2,\cdot\cdot\cdot,p\},\\ &&c_i(x) = 0, \forall i \in E:= \{p+1,p+2,\cdot\cdot\cdot,m\} \end{split}$

其中 $x\in \mathbb R^n$ 称为决策向量，函数 $f:\mathbb R^n \to \mathbb R$ 称为目标函数，函数 $c_i(\cdot)(i \in I)$ 称为不等式约束函数，函数 $c_i(\cdot)(i\in E)$ 称为等式约束函数，不等式 $c_i(x)\geq0(i\in I)$ 称为不等式约束，方程 $c_i(x)=0(i\in E)$ 称为等式约束， $I$ 称为不等式约束的指标集， $E$ 称为等式约束的指标集。记：

$\begin{aligned} F := {x \in R^{n} | \begin{aligned} c_{i} (x) \geq 0, \forall i \in I = 1, 2, \cdot \cdot \cdot, p; \\ c_{i} (x) = 0, \forall i \in E = p + 1, p + 2, \cdot \cdot \cdot, m \end{aligned}} \end{aligned}$ $\begin{split} \mathscr F:=\left\{ x\in \mathbb R^n \left\vert \begin{aligned} & c_i(x)\geq 0,\quad \forall i\in I={1,2,\cdot\cdot\cdot,p};\\ & c_i(x)=0,\quad \forall i\in E={p+1,p+2,\cdot\cdot\cdot,m} \end{aligned} \right. \right\} \end{split}$

称 $\mathscr F$ 为上述最优化问题的可行域， $\mathscr F$ 中的每个点 $x$ 称为上述最优化问题的一个可行点。若 $\mathscr F=\varnothing$ ，则称上述最优化问题不可行；否则，称问题是可行的。

因此，上述最优化问题就是在可行域 $\mathscr F$ 中找到一个点 $x$ ，使其对应的 $f(x)$ 的值不大于任何其他 $\mathscr F$ 中的点对应的目标函数值。

扫描二维码关注公众号，回复： 3632753 查看本文章

定义：假设可行域 $\mathscr F$ 由上式给出：
（i）若 $x^*\in \mathscr F$ ，且对所有的 $x\in \mathscr F$ 恒有 $f(x^*)\leq f(x)$ ，则称 $x^*$ 为上述最优化问题的一个全局解；
（ii）若 $x^*\in \mathscr F$ ，且对所有的 $x\in \mathscr F/\ {x^*}$ 恒有 $f(x^*)\lt f(x)$ ，则称 $x^*$ 为上述最优化问题的严格全局最优解；
（iii）若 $x^*\in \mathscr F$ ，且存在 $x^*$ 的某个邻域

N_{ε} (x^{*}) "= {x \in R^{n} | ‖ x - x^{*} ‖ < ε} ， ε 为 正 实 数 且 ‖ \cdot ‖ 表 示 某 种 范 数

$\mathscr N_\varepsilon (x^*)"=\left\{x\in \mathbb R^n \left\vert \Vert x-x^*\Vert \lt \varepsilon \right. \right\}，\varepsilon 为正实数且\Vert\cdot\Vert表示某种范数$
使得对所有的

x \in F \cap N_{ε} (x^{*})

$x\in \mathscr F \cap\mathscr N_\varepsilon(x^*)$ 恒有

f (x^{*}) \leq f (x)

$f(x^*)\leq f(x)$ ，那么称

x^{*}

$x^*$ 为上述最优化问题的一个局部最优解。
（iv）若

x^{*} \in F

$x^*\in \mathscr F$ ，且存在

x^{*}

$x^*$ 的某个邻域

N_{ε} (x^{*})

$\mathscr N_\varepsilon(x^*)$ ，使得对所有的

x \in F \cap N_{ε} (x^{*}) / x^{*}

$x\in\mathscr F \cap \mathscr N_\varepsilon(x^*)/\ {x^*}$ 恒有

f (x^{*}) < f (x)

$f(x^*)\lt f(x)$ ，那么称

x^{*}

$x^*$ 为为上述最优化问题的一个严格局部最优解。

定义：对于上述最优化问题，称其最优解 $x^*$ 对应的目标函数值 $f(x^*)$ 为此优化问题的最优值。

最优解不一定存在，存在也不一定唯一，但如果存在最优解，那么最优值一定唯一。最优化问题也常被写成：

$\begin{aligned} min {f (x) | \begin{aligned} c_{i} (x) \geq 0, \forall i \in I = 1, 2, \cdot \cdot \cdot, p; \\ c_{i} (x) = 0, \forall i \in E = p + 1, p + 2, \cdot \cdot \cdot, m \end{aligned}} \end{aligned}$ $\begin{split} \min\left\{f(x) \left\vert \begin{aligned} & c_i(x)\geq 0,\quad \forall i\in I={1,2,\cdot\cdot\cdot,p};\\ & c_i(x)=0,\quad \forall i\in E={p+1,p+2,\cdot\cdot\cdot,m} \end{aligned} \right. \right\} \end{split}$

预备知识

约定向量取列向量形式，即 $x\in \mathbb R^n$ 是指 $x$ 具有如下形式：

\begin{aligned} x := (x_{1}, x_{2}, \cdot \cdot \cdot)^{T} = (\begin{aligned} x 1 \\ x 2 \\ \cdot \\ \cdot \\ \cdot \\ x_{n} \end{aligned}) \end{aligned}

$\begin{split} x:=(x_1,x_2,\cdot\cdot\cdot)^T= \left( \begin{aligned} &x1\\ &x2\\ &\cdot\\ &\cdot\\ &\cdot\\ &x_n \end{aligned} \right) \end{split}$

对任意的 $x,y\in \mathbb R^n$ ，常用的内积 $\langle x,y\rangle$ 定义为：

⟨ x, y ⟩ := \sum_{i = 1}^{n} x_{i} y_{i} = x^{T} y

$\langle x,y\rangle:=\sum_{i=1}^nx_iy_i=x^Ty$

常用的向量范数：
$l_1-范数$ ： $\Vert x\Vert_1=\sum_{i=1}^n\vert x_i\vert$
$l_2-范数$ ： $\Vert x\Vert_2=\sqrt{x^Tx}=\sqrt{\sum_{i=1}^nx_i^2}$
$l_\infty-范数$ ： $\Vert x\Vert_\infty=\max \{\vert x_i\vert \vert i\in \{1,2,\cdot\cdot\cdot,n\}\}$

一般地，对于 $p\in \left[1,\infty\right)$ ， $l_p-范数$ 定义为：
$\Vert x_p \Vert=\left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}$

各范数之间的关系有：
$\Vert x \Vert _\infty \leq \Vert x\Vert _2 \leq \Vert x \Vert _1 \leq n\Vert x\Vert _\infty$

常用的矩阵范数
假设 $A\in \mathbb R^{n\times n}$ 是对称正定矩阵，那么向量的椭球范数 $\Vert\cdot\Vert_A$ 定义如下：

‖ x ‖_{A} := \sqrt{x^{T} A x}, \forall x \in R^{n}

$\Vert x \Vert _A:=\sqrt{x^TAx},\quad\forall x \in \mathbb R^n$

对于任意的 $A=(a_{ij})_{n\times n}\in \mathbb R^{n\times n}$ ，常用的矩阵范数是Frobenius范数，定义为：

‖ A ‖_{F} := \sqrt{\sum_{i = 1}^{n} \sum_{j = 1}^{n} a_{i j}^{2}} = \sqrt{T r (A^{T} A)}

$\Vert A\Vert _F:=\sqrt{\sum_{i=1}^n\sum_{j=1}^na_{ij}^2}=\sqrt{Tr(A^TA)}$
其中，

T r (A^{T} A)

$Tr(A^TA)$ 表示矩阵

A^{T} A

$A^TA$ 的迹，即

A^{T} A

$A^TA$ 的所有主对角线元素之和，也等于

A^{T} A

$A^TA$ 的所有特征值之和。

另一个常用的矩阵范数是由向量所诱导的矩阵范数，也称算子范数，定义为：

‖ A ‖ := max_{x \in R^{n} / {0}} \frac{‖ A x ‖}{‖ x ‖}, \forall A \in R^{n \times n}

$\Vert A \Vert:=\max_{x\in \mathbb R^n/\ \{0\}}\frac{\Vert Ax\Vert}{\Vert x\Vert},\quad \forall A\in \mathbb R^{n\times n}$
其中，

‖ \cdot ‖

$\Vert \cdot\Vert$ 是某种向量范数。
特别地，对于任意的

A \in R^{n \times n}

$A\in \mathbb R ^{n\times n}$ ，有：
- 由向量

l_{1} - 范 数

$l_1-范数$ 诱导的矩阵范数（列范数）为

‖ A ‖_{1} = max {\sum_{i = 1}^{n} | a_{i j} | | j \in {1, 2, \cdot \cdot \cdot, n}}

$\Vert A \Vert _1 = \max \left\{ \sum_{i=1}^n\vert a_{ij}\vert \left\vert j\in \{1,2,\cdot\cdot\cdot,n\}\right. \right\}$
- 由向量

l_{\infty} - 范 数

$l_\infty-范数$ 诱导的矩阵范数（行范数）为

‖ A ‖_{\infty} = max {\sum_{j = 1}^{n} | a_{i j} | | i \in {1, 2, \cdot \cdot \cdot, n}}

$\Vert A \Vert _\infty = \max \left\{ \sum_{j=1}^n\vert a_{ij}\vert \left\vert i\in \{1,2,\cdot\cdot\cdot,n\}\right. \right\}$
- 由向量

l_{2} - 范 数

$l_2-范数$ 诱导的矩阵范数（谱范数）为

‖ A ‖_{2} = \sqrt{λ_{max} (A^{T} A)}

$\Vert A \Vert _2 = \sqrt{\lambda_\max(A^TA)}$ ，其中

λ_{max} (A^{T} A)

$\lambda_\max(A^TA)$ 表示矩阵

A^{T} A

$A^TA$ 的最大特征值。

矩阵范数满足相容性条件，常用的不等式有Cauchy-Schwarz不等式，广义Cauchy-Schwarz不等式，Young不等式，Holder不等式，Minkowski不等式。

函数的可微性
如果函数 $f$ 是二阶连续可微，那么函数 $f$ 在点 $x$ 处的二阶导数组成的矩阵称为Hesse阵。
给定多变量向量值函数 $F$ ，如果其在 $x$ 处连续可微，那么函数 $F$ 在点 $x$ 处的一阶导数矩阵称为Jacobi矩阵。

凸集、凸函数、凸规划

凸集
给定非空集合 $\mathscr F \subseteq \mathbb R^n$ 。如果对任意的 $x,y\in \mathscr F$ 以及任意的实数 $\alpha \in [0,1]$ 都有

α x + (1 + α) y \in F

$\alpha x+(1+\alpha)y\in \mathscr F$
那么，称

F

$\mathscr F$ 为

R^{n}

$\mathbb R^n$ 中的一个凸集。若凸集

F

$\mathscr F$ 为开集，则称为开凸集；若凸集

F

$\mathscr F$ 为闭集，则称为闭凸集。

空集 $\varnothing$ 通常被规定为凸集。

凸集分离定理
假设 $\mathscr F_1, \mathscr F_2 \subseteq \mathbb R^n$ 为两个非空凸集。如果存在非零向量 $w\in\mathbb R^n$ 和实数 $t$ ，使得
（i）对任意的 $x\in\mathscr F_1$ 和 $y\in \mathscr F_2$ ，都有 $w^Tx\geq t$ 且 $w^Ty\leq t$ ，则称超平面 $\pi := \{x\in \mathbb R^n \vert w^Tx=t\}$ 分离集合 $\mathscr F_1$ 和 $\mathscr F_2$ ；
（ii）对任意的 $x\in\mathscr F_1$ 和 $y\in \mathscr F_2$ ，都有 $w^Tx\gt t$ 且 $w^Ty\lt t$ ，则称超平面 $\pi := \{x\in \mathbb R^n \vert w^Tx=t\}$ 严格分离集合 $\mathscr F_1$ 和 $\mathscr F_2$ 。

Farkas引理
设 $A\in \mathbb R^{m\times n}$ 且 $b\in \mathbb R^n$ ，考虑不等式组

A x \leq 0, b^{T} x > 0

$Ax\leq0,\quad b^Tx\gt 0$
和等式不等式组

A^{T} y = b, y \geq 0

$A^Ty=b,\quad y\geq0$
那么，上述两式有且仅一组有解。