支持向量机SVM的训练过程中需要求解带约束的最优化问题。

带约束的最优化问题通常表述如下：

$o b j e c t i v e : min_{w} f (w) s . t . {\begin{cases} g_{i} (w) \leq 0, & i = 1, 2, 3... n; & 不等式约束 \\ h_{j} (w) = 0, & j = 1, 2, 3... m; & 等式约束 \end{cases}$ $objective:\quad \min_w\ f(w) \qquad\qquad\qquad\qquad\qquad\qquad \\ s.t.\ \begin{cases} g_i(w)\le0, &i=1,2,3...n;&\text{不等式约束}\\ h_j(w)=0,&j=1,2,3...m;&\text{等式约束} \end{cases}$
$g_i(w)$ , $h_j(w)$ 和 $f(w)$ 一般都是连续可导的。要求在满足 $g_i(w)\le0,h_j(w)=0$ 的前提下求能使得目标函数 $f(w)$ 最小化的 $w$ 。

学习支持向量机SVM时，拉格朗日对偶、Slater条件、KKT条件等一大堆概念席卷而来，让没系统学习过凸优化的笔者一头雾水，估计不少人都是这样吧。
不幸的是笔者在数学相关问题上经常一不小心就陷入死磕，遇到没想明白的问题就总惦记着。另外笔者还是个懒于动手的人，但好在数学是一门完全不需要动手的学科，你只要靠想就可以，最多需要在纸上画画，完全不用做什么实验或者手工体力活儿，嗯，很适合笔者这种懒人，这也是笔者为什么从一个电气工程学生慢慢偏离航向发展成一个程序猿的原因。
回到我们要说的SVM中的优化问题。为什么要引入一堆系数把约束条件与目标函数组合到一起？为什么满足了KKT条件就是符合条件的解? 为什么可以转化为对偶问题？什么是Slater条件？在讲SVM的资料中通常不会详细展开这些问题，只是告知读者有这么回事。带着一排排问号，翻阅文献、Wiki、博客，加上自己的一些思考，算是把不少问题整理清楚了。笔者希望能把这些问题用容易理解的方式讲述明白，通过这一系列博文，将相关问题由易到难一一做出解释，希望这个系列的文章能帮更多人解惑。

本系列文章包括：
1. 纯等式约束时的optimalize问题
2. 纯不等式约束时的optimalize问题
3.混合约束时的optimalize问题——KKT条件与拉格朗日对偶问题
4.强对偶性的证明与Slater条件

1. 纯等式约束时的optimalize问题

这一类问题的范式如下：

o b j e c t i v e : m i n_{w} f (w) s . t : h_{j} (w) = 0, j = 1, 2, 3... m;

$objective:\qquad min_w\ f(w) \qquad\qquad\\ s.t:\qquad h_j(w)=0, j=1,2,3...m;$

在满足 $h_j(w)=0$ 的条件下使 $f(w)$ 最小化。 $h_j(w)$ 和 $f(w)$ 都应是连续可导的。上面纯代数的形式会让人不容易看到此类问题的本质，我们希望对这类问题有一个直观的几何理解。首先我们来看一下每个等式约束的含义。

等式约束的几何意义

对于 $h_j(w)=0$ ，如果 $w$ 是一个3维变量，那所有满足 $h_j(w)=0$ 的 $w$ 点集通常会组成一个 2 维的曲面。特别当 $h_j(w)$ 是 $w$ 的线性函数时，比如：

h_{j} (w) = a_{1} w_{x} + a_{2} w_{y} + a_{3} w_{z} + b

$h_j(w)=a_1w_x+a_2w_y+a_3w_z+b$
其中

w_{x} 、 w_{y} 、 w_{z}

$w_x、w_y、w_z$ 分别是

$w$ 在三个维度上的分量，

$a_1、a_2、a_3、b$ 是某些常数。这时

$h_j(w)=0$ 就是三维空间中的一个平面。对于通常的非线性函数而言，

$h_j(w)=0$ 一般对应一个曲面。

如果

$w$ 是更高维的变量，维数设为

$d_w$ ，那

$h_j(w)=0$ 一般对应一个

$(d_w-1)$ 维的子空间，或者说

$(d_w-1)$ 维的曲面。 注意，当我们下面再提到”面”这个概念时，它不一定代表狭义的二维面，而可以是对任意维度的一个子空间的称谓。
借用下物理中的概念：如果将

$h_j(w)$ 看做空间中某个向量场的势函数，这个向量场就是

$h_j(w)$ 的梯度场

$\nabla h_j(w)$ ，而

$h_j(w)=0$ 所对应的子空间就是该梯度场的 0等势面。在等势面上任一点的梯度都与该点邻域内的等势面垂直，即若

$w^*$ 是等势面上一点，则

$\nabla h_j(w^*)$ 垂直于该等势面。 （通常等势面是个曲面，当我们说垂直的时候，只是针对该面上某个点的切面）
进一步的，

$c\nabla h_j(w^*)$ 构成了一个1维的子空间

$G_j$ ，这个子空间与

$(d_w-1)$ 维的0等势面（在

$w^*$ 处的切面）垂直，因此它们互为补空间（相互垂直且维度之和是

$d_w$ ）。这意味着，在

$w^*$ 处所有与0等势面垂直的向量都在

$G_j$ 子空间中，即都可表示成一个常数与

$\nabla h_j(w^*)$ 相乘。
继续往下读之前先确保理解了上面几段的内容。提示：在本文中遇到高维相关结论，可以先在大脑里以我们熟悉的三维空间举例理解。
只有一个等式约束时目标函数与约束函数的梯度关系

再回到我们的问题，这里我们有m个等式约束，每个约束都对应一个0等势面，m个约束同时作用，相当于把可行域限制在了这m个0等势面的交集上。这个交集是什么样子？它也是一个子空间，只不过维数可能更低。比如三维空间中两个不平行的面(2维)的交集，是一条1维的线。我们先称呼前面提到的这个交集为”公共0势面”。
假设公共0势面的维度是

$d_0$ ，通常

$d_0=d_w-m$ 。而各

$h_j(w)$ 在公共0势面上某点

$w^*$ 处的梯度向量

$\nabla h_j(w^*)$ 都与公共0势面垂直，且共有m个这样的向量，因此这些梯度向量组合成的m维子空间

$G$ 与公共0势面互补。意味着： $w^*$ 处所有与公共0势面垂直的向量都在 $G$ 子空间中,即都可表示成：

扫描二维码关注公众号，回复： 3795006 查看本文章

$V=\sum_{j=1}^{m}{c_j\nabla h_j(w^*)}$

当然， $d_0$ 也有大于 $d_w-m$ 的时候，但这并不影响上面的结论。假如m个等势面中有某 $(t+1)$ 个等势面是相切的，这时公共等势面变成了 $d_w-(m-t)$ 维，比正常时候多了t个维度；但另一方面，梯度空间G也会因此而减少t个维度，因为有 $(t+1)$ 个梯度是平行的，它们只能提供1个维度。此时，上面的结论保持不变

公共0势面上的极值条件

我们已经知道，满足所有等式约束的点，都在前面提到的公共0势面上。那我们的目标函数 $f(w)$ 的极值点怎么找呢？
通常，在没有约束的时候，我们要找 $f(w)$ 的极值点，只要找 $f(w)$ 梯度为0的点，即 $\nabla f(w)$ 是0。而我们把可行域限制在公共0势面上之后呢？对，我们只要要求梯度向量 $\nabla f(w)$ 在公共0势面上的分量为0即可，换句话说，梯度向量与公共0势面垂直。
为了表达具体一点我们不得不把倒霉的 $w^*$ 再抓回来当我们的小白鼠。我们继续把它在公共0势面上，看一下它怎样才能变成极值点。
我们要求 $f(w)$ 在 $w^*$ 处的梯度向量 $\nabla f(w^*)$ 与该处的公共0势面垂直，意味着 $\nabla f(w^*)$ 必然在前面提到的梯度子空间G上，即它可以由各个等式约束函数在 $w^*$ 处的梯度线性组合而成，即存在一系列系数 $\beta_j$ ，满足下式：

$\nabla f(w^*)+\sum_{j=1}^{m}{\beta_j\nabla h_j(w^*)}=0$
这就是判定

$w^*$ 是否是可行域内极值点的方法。

结论

当我们求解纯等式约束下的最优化问题时，我们只需求解如下方程组即可求得候选解，然后从中挑选最优解：

$求解w和\beta\begin{cases} \nabla f(w)+ \sum_{j=1}^{m} {\beta_j\nabla h_j(w)}=0\\ h_j(w)=0\qquad for\ j=1,2...m \end{cases}$
或者我们可以构造一个能把约束条件与目标函数融合到一起的新函数：

$L(w,\beta)=f(w)+\sum_{j=1}^{m}{\beta_jh_j(w)}$
不错，狡猾的笔者偷偷把 拉格朗日乘子式的雏形列了出来，就在读者察觉到怎么读了这么久还没看到拉格朗日大人的踪影是不是走错片场了的时候。
这时，上面的方程组其实就是

$求解w和\beta\begin{cases} \frac{\partial L}{\partial w_k}=0&for\ k=1,2,3...d_w(w的维数)\\ \frac{\partial L}{\partial \beta_j}=0&for\ j=1,2...m \end{cases}$
多说两句，这个方程组中共有

$(d_w+m)$ 个未知量和方程。
其中

$\frac{\partial L}{\partial w_k}=0$ 是同时包含

$w,\beta$ 的方程，这样的方程共有

$d_w$ 个;
而

$\frac{\partial L}{\partial \beta_j}=h_j(w)=0$ 是只包含

$w$ 的方程，这样的方程共有m个。为使

$w$ 有解，m应小于

$w$ 的维数

$d_w$ ，否则对

$w$ 的约束方程数将大于

$w$ 的变量个数导致约束太强、各约束方程无法同时被满足而无解；

因此当 $d>m$ 时，上面的方程组通常是有解的。特别是当目标函数 $f(w)$ 是 $w$ 的二次函数、 $h_j(w)$ 都是w的一次函数即仿射函数时，上面的方程组就变了一个线性方程组，可以用线性代数方法直接求解

简单解释一下：
当 $f(w)$ 是 $w$ 的二次函数、 $h_j(w)$ 是 $w$ 的一次函数时，他们对 $w_k$ 的偏导分别是 $w$ 的一次和零次(常数)函数，所以他们的组合函数 $L(w,\beta)$ 对 $w_k$ 的偏导 $\frac{\partial L}{\partial w_k}$ 就是 $w,\beta$ 的一次函数， $\frac{\partial L}{\partial w_k}=0$ 就是一个线性方程；

而 $\frac{\partial L}{\partial \beta_j}=0$ 等价于 $h_j(w)=0$ ， $h_i(w)$ 是 $w$ 的一次函数，因此所有的 $h_j(w)=0$ 也都是线性方程；

于是整个方程组就变成了线性方程组

一句话概括

求解等式约束下的最优化问题，只需要解个方程组就可以找到候选极值点，然后在方程组的各个解中筛选出满足条件的最小值点即可（该方程组有可能是多解的）。

如果目标函数是二次函数，且约束都是线性的，那我们只需要求解一个线性方程组。

2. 纯不等式约束时的optimalize问题

这一类问题的范式如下：

$objective:\qquad min_w\ f(w) \qquad\qquad\\ s.t:\qquad g_i(w)\le0, i=1,2,3...n;$

$g_i(w)$ 和 $f(w)$ 都应是连续可导的。为了方便理解，我们先看只有一个不等式约束时的情形

只有一个不等式约束的情况

$objective:\qquad min_w\ f(w) \qquad\\ s.t:\qquad g_1(w)\le0$
对于某个给定的

$w^*$ ，如果它在可行域的内部，即

$g_1(w^*)<0$ 时，只需判断

$f(w)$ 在

$w^*$ 处的梯度

$\nabla f(w^*)$ 是否为0即可判断其是否是可行域上的候选极值点。
而如果

$w^*$ 在可行域的边界，即

$g_1(w)=0$ 时，情况就稍微复杂。首先，我们要保证至少在边界面上，

$w^*$ 是一个极值点（条件一）；其次，还要保证在可行域内部，

$w^*$ 的邻域内的其他点的函数值都比

$f(w^*)$ 大（条件二）。
为满足条件一，

$\nabla f(w^*)$ 在边界面上的梯度分量应为0，即

$\nabla f(w^*)$ 与边界面垂直。而边界面其实是

$g_1(w)$ 的零等势面，因此

$\nabla g_1(w^*)$ 也垂直于边界面。这样

$\nabla f(w^*)$ 就应与

$\nabla g_1(w^*)$ 平行，即

$\nabla f(w^*)+\alpha_1\nabla g_1(w^*)=0$
但这还不够，我们还要考虑不在边界上的内点。设

$(w^*+\Delta w)$ 是邻域内任一点，则当

$\Delta w$ 满足如下条件时：(注意

$\Delta w$ 与梯度一样都是向量，而非标量)

$\nabla g_1(w^*)\cdot\Delta w\le0$

$(w^*+\Delta w)$ 就是可行域上的点，因为这时满足

$g_1(w^*+\Delta w)=g_1(w^*)+\nabla g_1(w^*)\cdot\Delta w\le0$ 。
为使

$f(w)$ 能在

$w^*$ 处取可行域上的极小值，对于可行域内的所有

$\Delta w$ 须满足

$\nabla f(w^*)\cdot\Delta w\ge0$ ，即

$-\alpha_1\nabla g_1(w^*)\cdot\Delta w\ge0$
而

$\nabla g_1(w^*)\cdot\Delta w\le0$ ，因此此时

$\alpha_1\ge0$ 。

从几何角度来说，上面的两个条件对应的意义是： $\nabla f(w^*)$ 应与边界面垂直并指向包含可行域的一侧（边界面的一侧包含可行域，另一侧不包含可行域）。函数值沿着梯度方向是增长的，当 $f(w)$ 在 $w^*$ 处的梯度指向可行域一侧时，可行域内部的函数值都比 $w^*$ 处大， $w^*$ 才能是极小点

现在可以做个小结了：若 $w^*$ 是可行域上的极值点，则应满足：

$\begin{cases} \nabla f(w^*)+\alpha_1\nabla g_1(w^*)=0且\alpha_1\ge0&w^*是边界点，即g_1(w^*)=0时\\ \nabla f(w^*)=0&w^*是内点，即g_1(w^*)<0时 \end{cases}$
或者换一种更统一的形式

$\nabla f(w^*)+\alpha_1\nabla g_1(w^*)=0\\ 其中\alpha_1\ge0，且当g_1(w^*)<0时只能取等号$
我们甚至可以把原问题中的约束条件也包进来，构造一个完整的方程组：

$求解w和\alpha_1\begin{cases} \nabla f(w)+\alpha_1\nabla g_1(w)=0\\ \alpha_1g_1(w)=0\\ \alpha_1\ge0,\ g_1(w)\le0 \end{cases}$

巧妙的是，第二行的 $(\alpha_1g_1(w)=0)$ 和第三行的 $(\alpha_1\ge0,\ g_1(w)\le0)$ 联合起来，正好暗示了一个规则：当 $g_1(w)\lt0$ 时， $\alpha_1=0$ ；只有当 $g_1(w)=0$ 时， $\alpha_1$ 才可能大于0

同时存在多个不等式约束的情况

$objective:\qquad min_w\ f(w) \qquad\qquad\\ s.t:\qquad g_i(w)\le0, i=1,2,3...n;$
多个不等式约束同时存在时，思路与前面大致相同。
如果

$w^*$ 不在边界上，只需判断

$\nabla f(w^*)$ 是否为0；
如果

$w^*$ 只在其中某一个约束比如

$g_i(w)\le0$ 的边界上，处理方法与前面一样；
唯一需要多加考虑的，是当

$w^*$ 同时在多个约束的公共边界上的情况，即

$w^*$ 在多个不同约束的边界面的交集上，比如，

$g_1(w^*)=g_2(w^*)=g_3(w^*)=g_4(w^*)=0$ 。下面以此为例来说明。
首先，为使

$w^*$ 在公共边界上满足极值条件，

$\nabla f(w^*)$ 应与公共边界垂直。
而公共边界同时属于

$g_1(w^*)、g_2(w^*)、g_3(w^*)、g_4(w^*)$ 的0等势面，因此

$\nabla g_1(w^*)、\nabla g_2(w^*)、\nabla g_3(w^*)、\nabla g_3(w^*)$ 分别都与公共边界垂直，且这四个向量张成的四维空间正好构成公共边界的补空间，所有与公共边界垂直的向量，都在这个补空间中，可以被这四个向量的线性组合表示。
因此

$\nabla f(w^*)+\sum_{i=1}^{4}{\alpha_i\nabla g_i(w^*)}=0$
同样，我们还要关心可行域上、公共边界以外的其他点。
设

$(w^*+\Delta w)$ 是邻域内任一点，当

$\Delta w$ 同时满足如下条件时：

$\nabla g_i(w^*)\cdot\Delta w\le0，其中i=1,2,3,4$

$(w^*+\Delta w)$ 就是可行域上的点。
为使

$f(w)$ 能在

$w^*$ 处取可行域上的极小值，对于可行域内的所有

$\Delta w$ 须满足

$\nabla f(w^*)\cdot\Delta w\ge0$ ，即

$-\sum_{i=1}^{4}{\alpha_i\nabla g_i(w^*)\cdot\Delta w}\ge0$

同样的几何意义： $\nabla f(w^*)$ 应与公共边界面垂直并指向靠近可行域的方向。
这里说的“靠近可行域的方向”，是指与可行域夹角小于等于90°的方向。准确的说，对于所有能使 $(w^*+\Delta w)$ 位于可行域上的微小位移向量 $\Delta w$ ，与 $\nabla f(w^*)$ 夹角都应小于等于90°，用内积表示就是 $\nabla f(w^*)\cdot\Delta w\ge0$

结合 $\nabla g_i(w^*)\cdot\Delta w\le0$ ，为保证对所有满足的条件的 $\Delta w$ 上式都能成立，必须要求每个 $\alpha_i$ 都大于等于0。

否则，假如 $\alpha_1$ 小于0，对于满足以下条件 $\Delta w$ ，
$\nabla g_1(w^*)\cdot\Delta w<0,\ \nabla g_2(w^*)\cdot\Delta w=0,\\ \nabla g_3(w^*)\cdot\Delta w=0,\ \nabla g_4(w^*)\cdot\Delta w=0$ 上面的式子就不成立了

总结起来就是，当 $w^*$ 在上述公共边界并是可行极值点时，应满足：

$\nabla f(w^*)+\sum_{i=1}^{n}{\alpha_1\nabla g_1(w^*)}=0\\ 仅当i=1,2,3,4时，\alpha_i\ge0，其他\alpha_i=0$
OK，有了这个特例的辅助，我们很容易将结论一般化如下：

$\nabla f(w^*)+\sum_{i=1}^{n}\alpha_1\nabla g_1(w^*)=0\\ 其中\alpha_i\ge0，且当g_i(w^*)<0，即w^*不在第i个约束边界时必须取等号$
我们继续运用前面说到的巧妙办法，把原问题中的约束条件也包进来，构造一个完整的方程组：

$求解w和\alpha\begin{cases} \nabla f(w)+ \sum_{i=1}^{n} {\alpha_i\nabla g_i(w)}=0\\ \alpha_ig_i(w)=0& for\ i=1,2...n\\ \alpha_i\ge0,\ g_i(w)\le0& for\ i=1,2...n \end{cases}$
现在到再请出拉格朗日大人的时候了。我们构造一个能把约束和目标函数融合在一起的新函数，如下（拉格朗日乘子式）：

$L(w,\alpha)=f(w)+\sum_{i=1}^{n}{\alpha_ig_i(w)}$
这时上面的方程组变成了

$求解w和\alpha\begin{cases} \frac{\partial L}{\partial w_k}=0&for\ k=1,2,3...d_w(w的维数)\\ \alpha_i\cdot\frac{\partial L}{\partial \alpha_i}=0&for\ i=1,2...n\\ \alpha_i\ge0,\frac{\partial L}{\partial \alpha_i}\le0&for\ i=1,2...n \end{cases}$
这里共有

$d_w+n$ 个等式方程和

$d_w+n$ 个变量，可以先求解前两行构成的等式方程组，再排除掉其中不符合第三行条件的解，剩下的即是符合条件候选极值点。
然而，第二行的方程与纯等式约束时的情况不太一样，纯等式约束下只要求约束式的偏导为0，而这里是要求偏导与系数(也是待求的未知数)乘积为0，这增加了解方程的难度。即便当目标函数是二次的、不等式约束都是线性的时候，方程组整体也变成了二次方程组，很难直接求解。不过，这时不等式约束的数量n是可以大于d_w的，因为第二行的方程不在只包含

$w$ ，同时也包含了

$\alpha$ ，不会出现

$w$ 的约束太强而无解。

3. 混合约束时的optimalize问题——KKT条件与拉格朗日对偶问题

这一类问题的范式如下：

$objective:\quad \min_w\ f(w) \qquad\qquad\qquad\qquad\qquad\qquad \\ s.t.\ \begin{cases} g_i(w)\le0, &i=1,2,3...n;&\text{不等式约束}\\ h_j(w)=0,&j=1,2,3...m;&\text{等式约束} \end{cases}$

$g_i(w)$ ,

$h_j(w)$ 和

$f(w)$ 都应是连续可导的。

拉格朗日乘子式与KKT条件

有了前面纯等式和纯不等式约束问题的铺垫，我们可以轻松得出混合约束时的结论。
首先，还是先考虑最简单的情况，假如 $w^*$ 不在任何不等式的边界，即 $g_i(w^*)<0$ 对所有 $i=1,2...n$ 成立。——被玩坏的 $w^*$ 肯定在抱怨：为什么又是我躺枪，隔壁 $w'$ 闲了两天了！但显然无情的笔者才不打算关心这个声音。
但 $w^*$ 须仍在所有等式约束 $h_j(w)$ 的公共0势面上。这时相当于只有等式约束， $w^*$ 是极值的条件是：

$\nabla f(w^*)+\sum_{j=1}^{m}{\beta_j\nabla h_j(w^*)}=0$

我们再把 $w^*$ 扔到不等式的边界上看看会发生什么。有了之前纯不等式约束的基础，我们直接考虑 $w^*$ 同时在多个不等式约束边界时的情况，假如 $w^*$ 在第1、2、3、4个不等式约束的公共边界面上，即：

$\begin{cases} g_i(w^*)=0&for\ i=1,2,3,4\\ g_i(w^*)<0&for\ i=other\\ h_j(w^*)=0&for\ j=1,2...m \end{cases}$
可见，这个公共边界面，属于

$g_1(w)、g_2(w)、g_3(w)、g_4(w)$ 和

$h_1(w)、h_2(w)...h_m(w)$ 的公共混合0势面的一部分。如果想让

$f(w)$ 在

$w^*$ 处是可行域上的一个极值，首先要保证

$w^*$ 在这个公共混合0势面上是极值，即

$f(w)$ 在

$w^*$ 处的梯度应垂直于该混合0势面，可以表示成：

$\nabla f(w^*)+\sum_{j=1}^{m}{\beta_j\nabla h_j(w^*)}+\sum_{i=1}^{4}{\alpha_i\nabla g_i(w^*)}=0$

但这还不够，为了保证可行域上 $w^*$ 所有邻域点 $(w^*+\Delta w)$ 的目标函数值都比 $w^*$ 处大， $\alpha_1...\alpha_4$ 还应都是大于等于0的，具体分析过程与讲解纯不等式约束问题时类似，不再重复。

再强调下几何意义： $\nabla f(w^*)$ 应与公共混合0势面垂直并指向靠近可行域的方向。

将上面两种情况用统一的形式重写如下， $w^*$ 是可行域上极值点的条件是：

$\nabla f(w^*)+\sum_{j=1}^{m}{\beta_j\nabla h_j(w^*)}+\sum_{i=1}^{n}\alpha_1\nabla g_1(w^*)=0\\ 其中\alpha_i\ge0，且当g_i(w^*)<0，即w^*不在第i个不等式约束边界时只能取等号$

因此，我们可以通过解以下方程组（前3行等式构成方程组）

$求解w、\alpha和\beta\begin{cases} \nabla f(w)+ \sum_{j=1}^{m} {\beta_j\nabla h_j(w)}+\sum_{i=1}^{n} {\alpha_i\nabla g_i(w)}=0\\ h_j(w)=0& for\ j=1,2...m\\ \alpha_ig_i(w)=0& for\ i=1,2...n\\ \alpha_i\ge0,g_i(w)\le0& for\ i=1,2...n \end{cases}$
然后排除掉不满足第4行的解，就可以得到可行域上的候选极值点。

然后，拉格朗日时间到。是时候引出完整版的拉格朗日乘子式了，我们构造一个融合目标函数和所有约束的新函数：

$L(w,\alpha,\beta)=f(w)+\sum_{i=1}^n{\alpha_ig_i(w)}+\sum_{j=1}^m{\beta_jh_j(w)} \\$
然后前面的方程组就变成了

$求解w、\alpha和\beta\begin{cases} \frac{\partial L}{\partial w_k}=0&for\ k=1,2,3...d_w(w的维数)\\ \frac{\partial L}{\partial \beta_j}=0&for\ j=1,2...m\\ \alpha_i\cdot \frac{\partial L}{\partial \alpha_i}=0&for\ i=1,2...n\\ \alpha_i\ge0,\frac{\partial L}{\partial \alpha_i}\le0& for\ i=1,2...n \end{cases}$

是的，我们就这样得到了广为流传的KKT条件。对于某组给定的 $(w^*,\alpha^*,\beta^*)$ ，如果能同时满足上面的条件， $w^*$ 就是原问题的候选解，但候选解不一定是最优解。KKT条件只是最优解的必要条件。

拉格朗日对偶问题

前面KKT条件中的方程组通常是很难直接求解的。而有些时候，将原问题转换成另一种形式，可能更会容易求解。下面就介绍一种常见的转换形式，对偶问题。

我们先来看一个与原问题等价的问题。设

$\theta(w)=\max_{\alpha\ge0,\beta} L(w,\alpha,\beta) \qquad\text{注意条件，所有的}\alpha_i\ge0$

注意所有的 $\alpha_i$ 都是大于等于0的。
容易得出

$\theta(w)=\begin{cases} f(w)& \text{所有等式和不等式约束均被满足}\\ +\infty,&\text{有任意一个约束未被满足} \end{cases}$

如果不等式约束中有任意一个约束未被满足，比如若某个 $w^*$ 使得 $g_i(w^*)>0$ 时, 那我们将对应的 $\alpha_i$ 取 $+\infty$ ，则 $\alpha_ig_i(w^*)$ 必然也是 $+\infty$ ，导致 $\theta(w^*)$ 变为 $+\infty$ 。
同理如果原问题的等式约束中有任意一个约束未被满足，比如若某个 $w^*$ 使得 $h_j(w^*)\ne0$ 时, 那我们将对应的 $\beta_j$ 取
$\beta_j=\begin{cases} -\infty& h_j(w^*)\lt0\\ +\infty,& h_j(w^*)\gt0 \end{cases}$
则 $\beta_jh_j(w^*)$ 必然是 $+\infty$ ，，导致 $\theta(w^*)$ 变为 $+\infty$ 。
只有当 $w^*$ 满足所有的等式约束和不等式约束时， $\theta(w^*)$ 才不会变为无穷大。而且由于此时等式约束被满足，导致所有的 $\beta_jh_j(w^*)$ 项被直接消去，因为他们都等于0；另一方面由于所有的 $\alpha_i\ge0, g_i(w^*)\le0$ ，因此 $\alpha_ig_i(w^*)$ 取最大时必然也是0，即所有的 $\alpha_ig_i(w^*)$ 项也被消去，只剩下了 $f(w)$ 。于是就有上面的结果
$\theta(w)=\begin{cases} f(w)& \text{constraint satisfied}\\ +\infty,&\text{constraint not satisfied} \end{cases}$

这样一来，求原问题中的 $\min_w f(w)$ 就等价于求 $\min_w \theta(w)$ 。
原问题等价于：

$objective:\quad\min_w\max_{\alpha,\beta} L(w,\alpha,\beta)\\ s.t.\qquad\alpha_i \ge 0,\quad \text{for i=1,2,3...n}$

如果调换上面 min 和 max 的顺序，就得到该问题的对偶问题。
对偶问题：

$objective:\quad\max_{\alpha,\beta}\min_w L(w,\alpha,\beta)\\ s.t.\qquad\alpha_i \ge 0,\quad \text{for i=1,2,3...n}$

引入一个新函数： $\theta_D(\alpha,\beta)=\min_{w} L(w,\alpha,\beta)$ ，这时对偶问题变成：

$objective:\quad\max_{\alpha,\beta}\theta_D(\alpha,\beta)\\ s.t.\qquad\alpha_i \ge 0,\quad \text{for i=1,2,3...n}$

根据 $\theta_D$ 的定义可知，对于任意的 $(w,\beta,\alpha\ge0)$ ，有 $\theta_D(\alpha,\beta)\le L(w,\alpha,\beta)$ ；
根据 $\theta$ 的定义可知，对于任意的 $(w,\beta,\alpha\ge0)$ ，有 $\theta(w)\ge L(w,\alpha,\beta)$ ；
如果设

$p^*=\theta(w^*)=\min_w\theta(w),\\ d^*= \theta_D(\alpha^*,\beta^*)=\max_{\alpha\ge0,\beta}\theta_D(\alpha,\beta)$
则

$d^*= \theta_D(\alpha^*,\beta^*)\le L(w^*,\alpha^*,\beta^*)\le \theta(w^*)=p^*$
即

$d^*\le p^*$ ，这个特性被称为”弱对偶性”，

$(p^*-d^*)$ 被称为”对偶间隙”，对偶间隙是大于等于0的。通过求解对偶问题，可以求出原问题的一个下限，在实际中这对寻求原问题最优解有一定的帮助。
如果对偶间隙为0即

$d^*= p^*$ ，则称之为”强对偶性”，此时对偶问题于原问题等价，只需求解对偶问题即可，

$(w^*,\alpha^*,\beta^*)$ 同时是原问题和对偶问题的解。
那什么情况下强对偶性才能被满足呢？我们介绍一个能在 凸优化问题中保证强对偶性的充分条件，下一节再证明这个结论。

定义: 凸优化问题
当且仅当目标函数 $f(w)$ 和所有的不等式约束函数 $g_i(w)$ 都是凸函数，所有的等式约束 $h_j(w)$ 都是线性(仿射)函数时，相应的最优化问题属于凸优化问题。
Slater条件
对于凸优化问题，如果可行域满足Slater条件，强对偶性保证成立。
Slater条件是指，可行域存在一点 $w'$ 同时满足：
$\begin{cases} g_i(w')<0&for\ i=1,2...n\ (注意是<不再是\le)\\ h_j(w')=0&for\ j=1,2...m \end{cases}$
如果不等式约束中存在线性约束，比如前 $t$ 个不等式约束都是线性约束时，Slater条件可以弱化为： $\begin{cases} g_i(w')\le0&for\ i=1,2...t\\ g_i(w')<0&for\ i=t+1,t+2...n\\ h_j(w')=0&for\ j=1,2...m \end{cases}$

KKT条件的充分性

之前的分析中，KKT条件只能作为最优解的必要条件，但满足KKT条件的解不一定是最优解。而对于凸优化问题，KKT条件同时也是最优解的充分条件。

如果 $(w^*,\alpha^*,\beta^*)$ 是满足KKT条件的一组解，即

$\begin{cases} \frac{\partial L}{\partial w^*_k}=0&for\ k=1,2,3...d_w(w的维数)\\ \frac{\partial L}{\partial \beta^*_j}=0&for\ j=1,2...m\\ \alpha^*_i\cdot \frac{\partial L}{\partial \alpha^*_i}=0&for\ i=1,2...n\\ \alpha^*_i\ge0,\frac{\partial L}{\partial \alpha^*_i}\le0& for\ i=1,2...n \end{cases}$
由于 $\alpha^*\ge0$ ，以及凸优化问题中各不等式约束函数和目标函数都是凸函数的特点，易知 $L(w,\alpha^*,\beta^*)$ 是 $w$ 的凸函数，而KKT条件的第一行说明 $w^*$ 是使得 $L(w,\alpha^*,\beta^*)$ 对 $w$ 导数为0的点，因此
$L(w^*,\alpha^*,\beta^*)=\min_w{L(w,\alpha^*,\beta^*)}=\theta_D(\alpha^*,\beta^*)$
同时，KKT条件的第二行 $h(w^*)=0$ 和第三行 $\alpha^*g(w^*)=0$ 使得
$L(w^*,\alpha^*,\beta^*)=f(w^*)=\theta(w^*)$
因此有 $\theta_D(\alpha^*,\beta^*)=\theta(w^*)$ 。
而同时 $\theta_D(\alpha^*,\beta^*)\le d^*\le p^*\le \theta(w^*)$ ，这其实暗示了 $d^*= p^*$ ，即强对偶性成立，且 $(w^*,\alpha^*,\beta^*)$ 正好是原问题和对偶问题的最优解。
因此，对于凸优化问题，满足KKT条件的解一定是最优解，且满足KKT条件暗示了强对偶性成立。

4. 强对偶性的证明与Slater条件

强对偶性的一种比较直观的证明是用几何方法。

先介绍一条关于凸集的定理。这个定理表达的意思很直观。比如在二维空间中，二维平面上的任意一个凸图形（比如一个圆），在其边缘上任一点处做切线，该图形必在切线的同一侧，而不会被切割成多个部分并分居两侧。该定理的完整表述如下：

引理：支撑超平面定理
设集合 $C$ 是 $\mathbb{R}^n$ 空间中的闭凸集， $\bar{\boldsymbol{x}}$ 是 $C$ 边界上一点，则必存在一个过点 $\bar{\boldsymbol{x}}$ 的超平面，使得 $C$ 位于它的一个闭半空间。即存在法向量 $\boldsymbol{a}$ ，使得对于 $C$ 中任意点 $\boldsymbol{x}$ ，有：

$\boldsymbol{a}\cdot\boldsymbol{x}-\boldsymbol{a}\cdot\bar{\boldsymbol{x}}\ge0$
进一步地，如果已知 $\boldsymbol{x}^{in}$ 是 $C$ 的一个内点，则：
$\boldsymbol{a}\cdot\boldsymbol{x}^{in}-\boldsymbol{a}\cdot\bar{\boldsymbol{x}}\gt0$

如果想了解该定理的证明看这里：
http://www.cnblogs.com/murongxixi/p/3615034.html
这是在网上找到的一篇博文，里面步骤比较详尽。为防止原链接失效，相关的重要证明步骤会以图片形式插入到本文末尾的附录中。

回到我们的问题。我们要研究的是凸优化问题中强对偶性成立的条件，首先做一个基本假设：

基本假设：假设原问题是凸优化问题，即 $f(w),g_i(w)$ 都是凸函数， $h_j(w)$ 都是线性函数，且所有的 $h_j(w)$ 相互之间都是线性独立的。

$w\in \mathbb{R}^{d_w}$ ，我们按如下方式将 $\mathbb{R}^{d_w}$ 空间中一点 $w$ 映射为 $\mathbb{R}^{(n+m+1)}$ 空间中的点 $E$ ：

$E(w)=(u_1,u_2,...u_n,v_1,v_2,...v_m,t)\\ 其中\begin{cases} u_i=g_i(w)&i=1,2,3...n\\ v_j=h_j(w)&j=1,2,3...m\\ t=f(w)\\ \end{cases}$
简化表示为

$E=(u,v,t)$ 。

设所有点 $E$ 组成的集合为 $G_o$ ，
$G_o=\{(u,v,t):u=g(w),v=h(w),t=f(w),w\in \mathbb{R}^{d_w}\}$
然而，即便有了前面的基本假设，我们也不能保证 $G_o$ 是凸集。但是如果把它简单扩展一下，设：

$G_e=\{(u,v,t):u\ge g(w),v=h(w),t\ge f(w),w\in \mathbb{R}^{d_w}\}$

容易证明 $G_e$ 是一个凸集，且 $G_o \subseteq G_e$ 。

若 $A(u_a,v_a,t_a)$ 和 $B(u_b,v_b,t_b)$ 是 $G_e$ 内的两个点，按照 $G_e$ 的定义可知必然存在 $w_a$ 和 $w_b$ ，使得

$v_a=h(w_a),u_a\ge g(w_a),t_a\ge f(w_a)\\v_b=h(w_b),u_b\ge g(w_b),t_b\ge f(w_b)$
设 $0\le c\le1, w_c=cw_a+(1-c)w_b,C=cA+(1-c)B=(u_c,v_c,t_c)$ ，则
$u_c=cu_a+(1-c)u_b\\v_c=cv_a+(1-c)v_b\\t_c=ct_a+(1-c)t_b$
由于 $h(w)$ 是 $w$ 的线性函数，因此
$c\cdot h(w_a)+(1-c)h(w_b)=h[cw_a+(1-c)w_b]=h(w_c)$
即 $v_c = h(w_c)$ ；
由于 $g(w),f(w)$ 都是 $w$ 的凸函数，因此
$c\cdot g(w_a)+(1-c)g(w_b)\ge g[cw_a+(1-c)w_b]=g(w_c)\\ c\cdot f(w_a)+(1-c)f(w_b)\ge f[cw_a+(1-c)w_b]=f(w_c)$
而同时 $u_a\ge g(w_a),t_a\ge f(w_a),u_b\ge g(w_b),t_b\ge f(w_b)$ ，于是
$cu_a+(1-c)u_b\ge c\cdot g(w_a)+(1-c)g(w_b)\\ ct_a+(1-c)t_b\ge c\cdot f(w_a)+(1-c)f(w_b)$
即 $u_c\ge g(w_c),t_c\ge f(w_c)$ 。再结合 $v_c = h(w_c)$ ，可知 $(u_c,v_c,t_c)\in G_e$ ，即 $C=cA+(1-c)B\in G_e$ 。由于前述 $A,B,c$ 的选取具有任意性，因此对于任意两点 $A,B\in G_e$ ，连线 $\overline{AB}$ 上的所有点都属于 $G_e$ ， $G_e$ 是凸集。

除此之外，我们还知道 $E^*=(0,0,p^*)$ 必是 $G_e$ 的一个边界点，其中 $p^*=\min_w\theta(w)$ ， $\theta(w)$ 的定义同上一节。

若 $w^*$ 是目标函数 $f(w)$ 在可行域内的极小点，则 $p^*=f(w^*)$ ，且由于在可行域内，必然满足 $g(w^*)\le0$ 、 $h(w^*)=0$ ，因此 $(0,0,p^*)\in G_e$ ;
又由于 $p^*$ 是可行域上即区间 $\{g(w^*)\le0,h(w^*)=0\}$ 上的最小值(边界值)，对于任意小的正数 $\delta$ ， $(0,0,p^*-\delta)\not\in G_e$ ，因此 $(0,0,p^*)$ 在边界上。
即 $E^*=(0,0,p^*)$ 是 $G_e$ 的一个边界点。

利用上面关于边界点的支撑超平面定理，我们知道必存在一个法向量 $\boldsymbol{a}=(\alpha_a,\beta_a,\gamma_a)$ ，使得对于 $G_e$ 内任一点 $E_e=(u_e,v_e,t_e)$ ，满足：

$\boldsymbol{a}\cdot E_e - \boldsymbol{a}\cdot E^*\ge 0\\ 即\quad \alpha_a u_e+\beta_a v_e +\gamma_a t_e\ge \gamma_a p^*\tag{(1-a)}$
由于

$u_e,t_e$ 可以随意取正无穷大，

$p^*$ 是个定值，为使上面的大于等于恒成立，

$\alpha_a$ 和

$\gamma_a$ 必须大于等于0。否则，如果他们任意一个取负，当

$u_e,t_e$ 取正无穷大时，左边会变成负无穷而导致上式无法被满足。

$h(w)$ 是 $w$ 的线性函数，因此 $v_e=h(w)$ 也可以取到正无穷，甚至负无穷也可以。但 $v_e$ 不能单独、随意 地增大，因为 $v_e$ 完全由 $w$ 确定，而 $u_e和t_e$ 只是被 $w$ 确定了下限，它们可以单独增大，且仍保证在集合 $G_e$ 内。

$\gamma_a\gt 0$ 的情况

假如 $\gamma_a\ne0$ ，此时令 $\alpha^* = \alpha_a / \gamma_a, \beta^* = \beta_a / \gamma_a$ ，则式(1-a)可重写如下：

$\alpha^* u_e+\beta^* v_e+t_e\ge p^*\tag{(2-a)}$
由于

$\alpha_a\ge0$ ，

$\alpha^*\ge0$ 。
由于

$G_o \subseteq G_e$ ，因此

$G_o$ 中任意一点

$E(u,v,t)=(g(w), h(w), f(w))$ 也都满足上式。
即必然存在一组

$\alpha^*,\beta^*$ ，对任意的

$w\in \mathbb{R}^{d_w}$ ，始终满足：

$\alpha^* g(w)+\beta^* h(w)+f(w)\ge p^*\\\alpha\ge0$
我们上面都使用了简化后的表示方式，如果将上式完整展开，就是：存在一组

$\alpha^*,\beta^*$ 使得下式对所有的

$w\in \mathbb{R}^{d_w}$ 成立。

$\sum_{i=1}^n\alpha^*_ig_i(w)+\sum_{j=1}^m\beta^*_jh_j(w)+f(w)=L(w,\alpha^*,\beta^*)\ge p^*\\ \alpha^*_i \ge 0, \quad for \ i=1,2,3...n$

由于上式对任意的 $w$ 都成立，因此

$\theta_D(\alpha^*,\beta^*)=\min_w L(w,\alpha^*,\beta^*)\ge p^*$
进一步由于

$d^*=\max_{\alpha\ge0,\beta}{\theta_D(\alpha,\beta)}\ge\theta_D(\alpha^*,\beta^*)$
于是得到

$d^*\ge p^*$ 。而由弱对偶性，

$d^*\le p^*$ 。因此

$d^*= p^*$ ，强对偶性成立。

$\gamma_a=0$ 的情况，Slater条件的作用

这不是我们期望出现的情况，因为一旦 $\gamma_a=0$ ，我们就无法将式(1-a)的左边转换成跟 $L(w,\alpha,\beta)$ 相同的形式了。实际上，只要上节中提到的Slater条件被满足（通常这个条件都是满足的），就不会出现 $\gamma_a=0$ 的情况。下面我们分析为什么不会出现。

假如 $\gamma_a=0$ ，此时式(1-a)变成

$\alpha_a u_e+\beta_a v_e +\gamma_a t_e\ge 0\tag{(4-a)}$

Slater条件保证了在可行域内，存在 $w'$ 使得 $g(w')<0,h(w')=0$ ，设

$E_1=(g(w'),h(w'),f(w'))\in G_e\\ E_2=(g(w')+\Delta_g,h(w'),f(w')+\Delta_f)\in int\ G_e\\ 其中\Delta_g和\Delta_f是任意大于0的值，这两个正增量保证了E_2是G_e的内点$

则有

$\alpha_a g(w')+\beta_a h(w') +\gamma_a f(w')\ge 0\tag{4-b}$

$\alpha_a [g(w')+\Delta_g]+\beta_a h(w') +\gamma_a [f(w')+\Delta_f]\gt 0\tag{4-c}$
式(4-c)中可以用大于号是因为

$E_2是G_e的内点$ ，上面介绍引理时专门提到对于内点可以用大于号。
考虑到

$h(w')=0,\gamma_a=0$ ，由式(4-b)可得

$\alpha_a g(w')\ge 0$ ；
再由

$g(w')<0,\alpha\ge0$ ，可得

$\alpha_a=0$ ；
而将

$\alpha_a=0$ 和

$h(w')=0,\gamma_a=0$ 代入式(4-c)，会得到式(4-c)左边等于0的结论，这与式(4-c)中的大于号矛盾。
因此， 当Slater条件被满足时，不会出现 $\gamma_a=0$ 的情况。

Slater条件的表述似乎加强了对可行域的要求。实际上，只要要求对于每一个不等式约束 $g_i(w)$ ，在可行域内分别存在一个 $w_i$ 能使得 $g_i(w_i)<0$ 即可，这就足以支持我们推出上面的矛盾(将上面的简化表达式完整展开并推导出每个 $\alpha_i=0$ 即可推出矛盾)。而不须要求存在某个 $w'$ 使其同时满足所有的不等式约束。然而如果所有的 $g_i(w)$ 都是连续可导的话，这两种表述似乎也是等价的，不过这个结论的推理过程可能有些繁杂。

之前还提到了弱化的Slater条件(Weak Slater Condition)，弱化的Slater条件放宽了对线性不等式约束的要求。
实际上，当原Slater条件未被满足，但弱化的Slater条件能被满足时，说明存在某个线性不等式约束 $g_i(w)$ ，在可行域内找不到任何点能使得 $g_i(w)<0$ 成立，即在整个可行域内 $g_i(w)=0$ 。这意味着所有等式约束 $h_j(w)=0$ ，它们与 $g_i(w)\le0$ 的交集和与 $g_i(w)=0$ 的交集一样。考虑到 $h_j(w)$ 和 $g_i(w)$ 都是 $w$ 的线性函数，这只会发生在 $g_i(w)$ 正好是所有所有等式约束 $h_j(w)$ 的线性组合时，即

$g_i(w)=\sum_{j=1}^{m}{c_jh_j(w)}$
而这时，可以认为g_i(w)完全不起约束作用，直接为其分配系数 $\alpha_i=0$ ，然后按正常方式为其他不等式约束分配系数即可。因此只要满足弱化的Slater条件，就可以保证强对偶性。

结论

综上，只要 $f(w),g_i(w)$ 都是凸函数， $h_j(w)$ 都是线性函数，且可行域满足弱化的Slater条件时，强对偶性可以被保证。

附录：支撑超平面定理的证明(截图)

以下截图来自博文：
http://www.cnblogs.com/murongxixi/p/3615034.html

这里写图片描述

带约束的最优化问题

1. 纯等式约束时的optimalize问题

等式约束的几何意义

公共0势面上的极值条件

结论

一句话概括

2. 纯不等式约束时的optimalize问题

只有一个不等式约束的情况

同时存在多个不等式约束的情况

3. 混合约束时的optimalize问题——KKT条件与拉格朗日对偶问题

拉格朗日乘子式与KKT条件

拉格朗日对偶问题

KKT条件的充分性

4. 强对偶性的证明与Slater条件

γa>0 γ a > 0 \gamma_a\gt 0的情况

γa=0 γ a = 0 \gamma_a=0的情况，Slater条件的作用

结论

附录：支撑超平面定理的证明(截图)

猜你喜欢

$\gamma_a\gt 0$ 的情况

$\gamma_a=0$ 的情况，Slater条件的作用