Lagrange 对偶

文章目录

Lagrange 对偶

对偶的概念通常出现在数学规划的参考书中，其目的是为数学规划问题提供另一种更易计算或更具有某些理论意义的表述。

对偶函数

min-max 定理是研究对偶问题的基础！

考虑原始问题
$\begin{aligned} \min_{x\in\mathbb{R}^n} ~~& f(x) \\ \mathrm{s.t.} ~~& c_i(x) \leq 0,i \in \mathcal{I} \end{aligned}$
其等价于
$\min_{x\in X}\max_{\lambda \geq 0} \mathcal{L}(x,\lambda)$
其中 $f,c_i ~(i \in \mathcal{I})$ 是凸函数， $X$ 是凸集。Lagrange 函数
$\mathcal{L} = f(x) + \sum_{i\in\mathcal{I}} \lambda_i c_i(x) = f(x) + \lambda^Tc(x)$
对于 $\forall x \in X$ ，定义
$\hat{f}(x) = \max_{\lambda\geq 0} \mathcal{L}(x,\lambda)$
则
$\hat{f}(x) = \begin{cases} f(x),&c(x)\leq 0 \\ \infty,&\mathrm{otherwise} \end{cases}$
对于 $\forall \lambda \geq 0$ ，定义对偶函数（dual function）
$\varphi(\lambda) = \inf_{x \in X} \mathcal{L}(x,\lambda) = \inf_{x \in X} [f(x) + \lambda^Tc(x)]$

命题对偶函数 $\varphi(\lambda)$ 是凹函数，对偶问题是凸规划。

定义原问题的对偶问题为
$\max_{\lambda\geq 0}~\varphi(\lambda)$
例考虑问题
$\begin{aligned} \min_{x\in\mathbb{R}^n} ~~& f(x) = c^T x \\ \mathrm{s.t.} ~~& Ax \geq b \\ ~~&x\geq 0 \end{aligned}$
分别基于集合约束 $x\in X=\{x\in\mathbb{R}^n | x\geq 0\}$ 和 $\in X = \mathbb{R}^n$ 写出该问题的对偶问题。

解 (a) Lagrange 函数为
$\begin{aligned} \mathcal{L}(x,\lambda) &= c^Tx + \lambda^T(b - Ax)\\ &=(c^T-\lambda^TA)x + \lambda^Tb \end{aligned}$
记对偶函数为
$\varphi(\lambda) = \min_{x\geq 0}~\mathcal{L}(x,\lambda)$
因此，需要 $c^T - \lambda^TA\geq 0$ ，则对偶函数为 $\varphi(\lambda) = b^T\lambda$ 。

对偶问题
$\begin{aligned} \max_{x \geq 0} ~~& b^T\lambda \\ \mathrm{s.t.} ~~& \lambda^TA\leq c^T \\ ~~&\lambda\geq 0 \end{aligned}$
(b) Lagrange 函数为
$\begin{aligned} \mathcal{L}(x,\lambda) &= c^Tx + \lambda^T(b - Ax) + \mu(-x)\\ &=(c^T-\lambda^TA - \mu^T)x + \lambda^Tb \end{aligned}$
记对偶函数为
$\varphi(\lambda) = \min_{x\in \mathbb{R}^n}~\mathcal{L}(x,\lambda)$
因此，需要 $c^T - \lambda^TA - \mu^T = 0$ ，则对偶函数为 $\varphi(\lambda) = b^T\lambda$ 。

对偶问题
$\begin{aligned} \max_{x\in\mathbb{R}^n} ~~& b^T\lambda \\ \mathrm{s.t.} ~~& \lambda^TA +\mu^T = c^T \\ ~~&\lambda\geq 0,\mu\geq 0 \end{aligned}$
注记：由此题体会写对偶问题的灵活性，即通常仅把难处理的约束松弛到目标函数中形成 Lagrange 函数，这样对偶问题的变量要少一些. 但是求对偶函数时可能要稍微复杂些。显然，两个问题的是等价的。

弱对偶定理

定理设 $\hat{x}$ 是原始问题的可行解（即 $\hat{x} \in X,c(\hat{x})\leq 0$ ），对偶变量 $\hat{\lambda}\geq 0$ ，则有 $f(\hat{x}) \geq \varphi(\hat{\lambda})$ 。

推论 1
$\inf_{x\in X} \sup_{\lambda\geq 0} \mathcal{L}(x,\lambda) \geq \sup_{\lambda\geq 0}\inf_{x\in X}\mathcal{L}(x,\lambda)$
推论 2 设 $\hat{x}$ 是原始问题的可行解， $\hat{\lambda} \geq 0,f(\hat{\lambda})=\varphi(\hat{\lambda})$ ，则二者分别是原始问题和对偶问题的最优解。

推论 3 如果原始问题无界，则对每个 $\lambda\geq 0,\varphi(\lambda)=-\infty$ ，如果 $\sup\{\varphi(\lambda):\lambda\geq 0\} = +\infty$ ，则原始问题不可行。

对偶间隙

例考虑问题
$\begin{aligned} \min_{x \in [0,2]} ~~& f(x) = -x^2 \\ \mathrm{s.t.} ~~& x = 1 \end{aligned}$
显然，原文题的解为 $x^{\star} = 1$ 。

对偶函数为
$\begin{aligned} \varphi(\lambda) &= \min_{0\leq x \leq 2}~-x^2+\lambda(x -1)\\ &= \begin{cases} -4 + \lambda, &\lambda\leq 2\\ -\lambda,&\lambda>2 \end{cases} \end{aligned}$
则对偶问题
$\max_{\lambda} ~ \varphi(\lambda)$
解得 $\lambda^{\star} = 2$ 。

因此，对偶间隙为
$f(x^{\star}) - \varphi(\lambda^{\star}) = 1$

强对偶定理

考虑问题
$\begin{aligned} p^{\star} = \min_{x\in X} ~~&f(x)\\ \mathrm{s.t.}~~&c_i(x) \leq 0,i\in\mathcal{I} \end{aligned}$

定理假设上述问题中， $f,c_i ~(i\in\mathcal{I})$ 是凸函数， $X$ 为凸集，且 $\exists x' \in X',\mathrm{s.t.},c_i(x') < 0,i\in\mathcal{I}$ 。若 $p^{\star}$ 有限，则
$p^{\star} = \max_{\lambda\geq 0} \varphi(\lambda)$
且对偶问题存在最优解 $\lambda^{\star}$ 。设 $x^{\star}$ 为最优解，则
$c(x^{\star})^T \lambda^{\star} = 0$
且
$x^{\star} = \mathop{\arg\min}_{x\in X} \mathcal{L}(x,\lambda^{\star})$

强对偶定理可以总结为
$\mathrm{Slater~CQ} + 凸规划 \Rightarrow 强对偶定理$

Lagrange 对偶的优点

不管原问题是不是凸的，对偶问题为凹函数的极大化问题（凸规划）！
对偶问题的约束仅有“界约束”，相当简单，在很多时候求解对偶问题要容易得多。
应用实例
- 支持向量机（Support vector machine）

参考文献

[1] 刘红英，夏勇，周永生. 数学规划基础，北京，2012.

【最优化】Lagrange对偶