(读李航老师的《统计学习方法》总结摘录一些内容)

原始问题与拉格朗日函数

假设 $f(x),c_{i}(x),h_{j}(x)$ 是定义在 $\mathbf{R}^{n}$ 上的连续可微函数。对于一个约束最优化问题：
$min\ f\left(w\right) \\ s.t.\ g_{i}(w) \leqslant 0， i=1,2,...,k \\ \ h_{w} = 0, i = 1,2,...,l\tag{1}$
首先引入拉格朗日函数：
$L(x,\alpha,\beta) = f(x) + \sum _{i=1}^{k}a_{i}c_{i}(x) + \sum_{j=1}^{l}\beta_{j}h_{j}(x)\tag{2}$
这里 $x = (x_{(1)},x_{(2)},...,x{(n)})^{T} \in \mathbf{R}^{n},\alpha_{i},\beta_{j}$ 是拉格朗日乘子，其中 $\alpha_{i}\geqslant 0$ .考虑x的函数：
$\theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta)\tag{3}$

分两种情况分析问题(3):

对于 $\theta_{p}$ 问题，如果给定某一个x,x违反约束最优化问题（1）中的 $g_{i}(w),h_{j}(w)$ 。那么就有：
$\theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) = +\infty \tag{4}$
这是因为：对于某个违反约束条件的 $x_{k}$ ,则有 $c_{k}(w) >0,or\ , h_{k}(w) \neq 0$ 。为了使式（4）成立，有下面两种方法。
- 如果有 $c_{k}(w) >0$ ，则可令 $\alpha_{i} \rightarrow +\infty$ 。使得其他的 $\alpha_{i},\beta_{i}=0$ 。
- 如果有 $h_{k}(w) \neq 0$ ,则可令 $\alpha_{i},\beta_{j}\rightarrow +\infty$ 。使得其他的 $\alpha_{i},\beta_{i}=0$ 。
如果所有的x都满足最优化问题（1）的约束条件，可知公式（3） $\theta_{p}(x) = f(x)$ 。
所以公式（3），就可以转换为：
$\left\{\begin{matrix} f(x),&x满足原始问题约束 \\ +\infty,&其他 \end{matrix}\right.\tag{5}$

考虑公式（3）的最小化问题

考虑公式（3）的最小化问题有：
$\underset{x}{min}\ \theta_{p}(x) = \underset{x}{min}\underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) \tag{6}$
问题（4）称为拉格朗日的极小极大问题，它和问题（1）是等价的。这样我们定义原始问题的最优解：
$p^{*} = \underset{x}{min}\ \theta_{p}(x)\tag{7}$

对偶性

定义：
$\theta_{D} (\alpha,\beta) = \underset{x}{min} \ L(x,\alpha,\beta)\tag{8}$
考虑问题（8）的极大问题：
$\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D} (\alpha,\beta) = \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\tag{9}$
问题(9) $\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)$ 被称为广义拉格朗日的极大极小问题：
将其表示为：
$\underset{\alpha,\beta}{max}\ \theta_{D} (\alpha,\beta) = \underset{\alpha,\beta}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \ \alpha_{i} \geqslant0,\ i = 1,2,...,k\tag{10}$
问题10就是原始问题的对偶问题。定义对偶问题的最优解。
$d^{*} =\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D}(\alpha,\beta)\tag{11}$

对偶问题和原始问题的关系

在某些情况下原始问题的解 $p^{*}$ 和对偶问题的解 $d^{*}$ 相同。

考虑原始问题（1）和对偶问题（10）。假设函数 $f(x),c_{i}(x)$ 是凸函数, $h_{j}(x)$ 是仿射函数¹。并且假设不等式约束 $c_{i}$ 是严格约束，即存在x,对于所有的i有 $c_{i}<0$ ,则存在 $x^{*},\alpha^{*},\beta^{*}$ ,使得 $x^{i}$ 是原始问题的解， $\alpha^{*},\beta^{*}$ 是对偶问题的解。有：
$p^{*} = d^{*} = L(x^{*},\alpha^{*},\beta^{*})\tag{12}$
如果 $x^{i}$ 是原始问题的解， $\alpha^{*},\beta^{*}$ 是对偶问题的解，则 $x^{*},\alpha^{*},\beta^{*}$ 必须同时满足满足原始问题和对偶问题的约束，即KTT条件：
$\triangledown _{x}L(x^{*},\alpha^{*},\beta^{*}) = 0\\ {\color{Red} \alpha^{*}c_{i}(x^{*}) = 0,\ i=1,2,...,k}\\ c_{i}(x^{*})\leq0,\ i=1,2,...,k\\ a_{i}^{*} \geq0,\ i=1,2,...,k\\ h_{j}(x^(*)) = 0,\ j=1,2,...,k\tag{13}$
红色的公式称为KTT对偶互补条件。由此件可知：若 $a_{i}^{*}>0$ ,则有 $c_{i}(x^{*}) = 0$

https://blog.csdn.net/qq_20966795/article/details/86307097 ↩︎

拉格朗日及其对偶性

原始问题与拉格朗日函数

分两种情况分析问题(3):

考虑公式（3）的最小化问题

对偶性

对偶问题和原始问题的关系

猜你喜欢