拉格朗日对偶性

该文章参考自《统计学习方法》附录C 拉格朗日对偶性

【原始问题】

$\min\limits_{x}f(x)$
$\text{s.t.} \ \ \ c_i(x) \leqslant 0, \ i=1,2,\cdots,k$
$\qquad h_j(x) = 0, \ j=1,2,\cdots,l$

【定义广义拉格朗日函数】

定义的规则为：原函数 $f(x)$ 照写，为每一个不等式约束 $c_i(x)$ 分配一个拉格朗日乘子 $\alpha_i$ ，再为每一个等式约束 $h_j(x)$ 分配一个拉格朗日乘子 $\beta_j$ ，这样共有2组拉格朗日乘子

$\begin{aligned}L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^{k}\alpha_ic_i(x)+\sum\limits_{j=1}^{l}\beta_j h_j(x)\end{aligned}$

定义域为 $x \in \mathbb{R}^n$ ， $\alpha_i \geqslant 0$ ， $\beta_j \in \mathbb{R}$ ，其中 $\alpha_i$ ， $\beta_j$ 为拉格朗日乘子

Question：为何此处要求不等式约束的拉格朗日乘子大于等于0？

【广义拉格朗日函数的极小极大问题】

首先定义一个关于 $x$ 的函数 $\theta_P(x)$

$\begin{aligned}\theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0}L(x,\alpha,\beta)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \left (f(x)+\sum\limits_{i=1}^{k}\alpha_i c_i(x)+\sum\limits_{j=1}^{l}\beta_j h_j(x)\right)\end{aligned}$

$\theta_P(x)$ 的定义域为 $x \in \mathbb{R}^n$ ，说明 $x$ 的取值是不受任何约束的，可以对于 $x$ 的取值分2种情况讨论

（1） $x$ 不满足原始问题的约束条件，即存在 $c_i(x)>0$ ，或存在 $h_j(x) \neq 0$

令 $c_i(x)>0$ 对应的 $\alpha_i \rightarrow +\infty$ ，则 $\alpha_i c_i(x) \rightarrow +\infty$

令 $c_i(x) \leqslant 0$ 对应的 $\alpha_i=0$ ，则 $\alpha_i c_i(x)=0$

（以上所有 $\alpha_i$ 的取值均满足定义域 $\alpha_i \geqslant 0$ ）

令 $h_j(x) \neq 0$ 对应的 $\beta_j \rightarrow +\infty$ 或 $-\infty$ ，则 $\beta_j h_j(x) \rightarrow +\infty$

令 $h_j(x)=0$ 对应的 $\beta_j$ 取任意值，则 $\beta_j h_j(x)=0$

于是有 $\begin{aligned}\sum\limits_{i=1}^{k}\alpha_i c_i(x) \rightarrow +\infty\end{aligned}$ ， $\begin{aligned}\sum\limits_{j=1}^{l}\beta_j h_j(x) \rightarrow +\infty\end{aligned}$

$\begin{aligned}\theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \left ( f(x)+\sum\limits_{i=1}^{k}\alpha_i c_i(x)+\sum\limits_{j=1}^{l}\beta_j h_j(x) \right )=+\infty\end{aligned}$

以上分析表明，通过以上对 $\alpha_i$ 和 $\beta_j$ 赋予特定值，可以使得 $L(x,\alpha,\beta)$ 取最大值 $+\infty$ ，即当 $x$ 不满足原始问题的约束条件时， $\theta_P(x)$ 的最大值一定为 $+\infty$

通俗的解释：将 $x$ 比作各种各样的人，将约束条件 $c_i(x) \leqslant 0$ ， $h_j(x) = 0$ 比作法律， $\alpha_i$ 和 $\beta_j$ 比作罚款的倍率，由“法院”控制 $\alpha_i$ 和 $\beta_j$ 的值的大小，“法院”可以毫无约束地设置 $\beta_j$ ，而设置 $\alpha_i$ 时需要满足约束 $\alpha_i \geqslant 0$ ，将 $\theta_P(x)$ 比作罚金

那么只要某人 $x$ 违反了任何一个约束条件，即“犯法”了，“法院”一方都可以合理设置罚款倍率 $\alpha_i$ 和 $\beta_j$ ，使得最终罚金 $\theta_P(x)$ 为 $+\infty$ ，即只要“犯法”了，罚金一定是正无穷大。

（2） $x$ 满足原始问题的约束条件，即所有 $c_i(x) \leqslant 0$ 和 $h_j(x)=0$ 均成立

令 $\alpha_i=0$ ，则 $\alpha_i c_i(x)=0$ （ $\alpha_i$ 的取值均满足定义域 $\alpha_i \geqslant 0$ ）

令 $\beta_j$ 取任意值，则 $\beta_j h_j(x)=0$

于是有 $\begin{aligned}\sum\limits_{i=1}^{k}\alpha_i c_i(x)=0\end{aligned}$ ， $\begin{aligned}\sum\limits_{j=1}^{l}\beta_j h_j(x)=0\end{aligned}$

$\begin{aligned}\theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \left ( f(x)+\sum\limits_{i=1}^{k}\alpha_i c_i(x)+\sum\limits_{j=1}^{l}\beta_j h_j(x) \right )=f(x)\end{aligned}$

以上分析表明，通过对 $\alpha_i$ 和 $\beta_j$ 赋予特定值，可以使得 $L(x,\alpha,\beta)$ 取最大值，该最大值正好为 $f(x)$ ，即当 $x$ 满足原始问题的约束条件时， $\theta_P(x)$ 的最大值一定为 $f(x)$

通俗的解释：如果 $x$ 选择做一个好人，“法院”也会帮你设置罚款倍率，最终不会产生任何罚款，因此后两项相当于不存在，只留下 $f(x)$

综上所述
$\begin{aligned}\theta_P(x)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} L(x,\alpha,\beta)=\left\{\begin{matrix} f(x), \ x满足原始问题的约束 \\ +\infty,\ x不满足原始问题的约束 \end{matrix}\right.\end{aligned}$

当我们求 $\theta_P(x)$ 的最小值时，由于最小值一定不会为 $+\infty$ ，所以最优解 $x^*$ 一定会落在原始问题的约束条件所限定的区域内

$\begin{aligned}\min \limits_{x} \theta_P(x)= \min \limits_{x} \max \limits_{\alpha,\beta:\alpha_i \geqslant 0} L(x,\alpha,\beta)\end{aligned}$

上述问题与原始问题有相同的解，是等价的，称为广义拉格朗日函数的极小极大问题，于是原始问题可以扔掉，改用广义拉格朗日函数的极小极大问题

【对偶问题】

定义关于 $\alpha$ 和 $\beta$ 的函数： $\theta_D(\alpha,\beta)=\min \limits_{x} L(x,\alpha,\beta)$

考虑对 $\theta_D(\alpha,\beta)$ 求最大值，称为广义拉格朗日函数的极大极小问题

$\begin{aligned}\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \theta_D(\alpha,\beta)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \min \limits_{x} L(x,\alpha,\beta)\end{aligned}$

上述问题表示为约束最优化问题（即把定义域的约束放在 $\text{s.t.}$ 处），称为原始问题的对偶问题

$\begin{aligned}\max \limits_{\alpha,\beta} \ \theta_D(\alpha,\beta)=\max \limits_{\alpha,\beta} \ \min \limits_{x} L(x,\alpha,\beta)\end{aligned}$
$\text{s.t.} \ \alpha_i \geqslant 0, \ i=1,2,\cdots,k$

【原始问题和对偶问题的关系，定理C.1】

原始问题的最优值： $\begin{aligned}p^*=\min \limits_{x} \theta_P(x)=\min \limits_{x} \max \limits_{\alpha,\beta:\alpha_i \geqslant 0} L(x,\alpha,\beta)\end{aligned}$

对偶问题的最优值： $\begin{aligned}d^*=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \theta_D(\alpha,\beta)=\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \min \limits_{x} L(x,\alpha,\beta)\end{aligned}$

$p^*$ 和 $d^*$ 的关系为： $d^* \leqslant p^*$ ，证明如下

对任意的 $x$ ， $\alpha \succeq 0$ ， $\beta$ ，有

$\begin{aligned}\theta_D(\alpha,\beta)=\min \limits_{x} L(x,\alpha,\beta) \leqslant L(x,\alpha,\beta) \leqslant \max \limits_{\alpha,\beta:\alpha_i \geqslant 0} L(x,\alpha,\beta)=\theta_P(x)\end{aligned}$

即 $\theta_D(\alpha,\beta) \leqslant \theta_P(x)$

所以 $\max \limits_{\alpha,\beta:\alpha_i \geqslant 0} \theta_D(\alpha,\beta) \leqslant \min \limits_{x} \theta_P(x)$

即 $d^* \leqslant p^*$

这里体现了一种思想，即 $\max\min\leqslant\min\max$

试想一下下列2组选人策略

（1）max min策略：从每个班里选出最矮的人，再从这些“矮个儿”中选出最高的那个人，记为甲

（2）min max策略：从每个班里选出最高的人，再从这些“高个儿”中选出最矮的那个人，记为乙

那么问题来了，甲和乙谁高谁矮？

直觉上也应该认为乙比甲高（所谓“瘦死的骆驼比马大”，或者清华垫底的强于技校第一名）

【推论C.1】

假设我对 $x$ 进行采样，得到 $x_0$ ，对应了原始问题的一个值 $p_0$

再对 $\alpha$ ， $\beta$ 采样，得到 $\alpha_0$ ， $\beta_0$ ，对应了对偶问题的一个值 $d_0$

通常情况下会有 $d_0 < p_0$ （这并不奇怪）

然而某次采样中我们发现 $d_0=p_0$ 了，那么说明我们的采样“中奖了”，我们居然采样到了最优解
$x^*=x_0$ ， $p^*=p_0$
$\alpha^*=\alpha_0$ ， $\beta^*=\beta_0$ ， $d^*=d_0$

一般情况下， $d^* \leqslant p^*$ ，特殊情况下， $d^* = p^*$ ，那么这个特殊情况指的是什么呢？

【KKT条件】

原始问题
$\min \limits_{x} f(x)$
$\text{s.t.}\ \ \ c_i(x) \leqslant 0, \ i=1,2,\cdots,k$
$\qquad h_j(x) = 0, \ j=1,2,\cdots,l$

对偶问题
$\max \limits_{\alpha,\beta} \ \theta_D(\alpha,\beta)=\max \limits_{\alpha,\beta} \ \min \limits_{x} L(x,\alpha,\beta)$
$\text{s.t.} \ \alpha_i \geqslant 0, \ i=1,2,\cdots,k$

其中 $f(x)$ 和 $c_i(x)$ 为凸函数， $h_j(x)$ 为仿射函数（仿射函数定义：最高次数为1的多项式函数），并且存在 $x$ 使得所有不等式约束 $c_i(x) \leqslant 0$ 成立，那么

（1）存在 $x^*$ ， $\alpha^*$ ， $\beta^*$ ，使得 $x^*$ 为原始问题的最优解， $\alpha^*$ ， $\beta^*$ 为对偶问题的最优解，并且 $d^*=p^*=L(x^*,\alpha^*,\beta^*)$

（2） $x^*$ 为原始问题的最优解， $\alpha^*$ ， $\beta^*$ 为对偶问题的最优解的充要条件为如下的KKT条件

$\nabla_x L(x^*,\alpha^*,\beta^*)=0$
$\nabla_\alpha L(x^*,\alpha^*,\beta^*)=0$
$\nabla_\beta L(x^*,\alpha^*,\beta^*)=0$
$c_i(x^*) \leqslant 0$
$h_j(x^*)=0$
$\alpha_i \geqslant 0$
$\alpha_i^*c_i(x_*)=0$

其中 $\alpha_i^*c_i(x_*)=0$ 称为对偶互补条件

猜你喜欢