凸优化学习（二）对偶和SVM

4.4 对偶问题

对于有约束的优化问题。约束优化问题的一般形式为：

\begin{array}{l} m i n i m i z e & f_{0} (x) \\ s u b j e c t . t o & f_{i} (x) \leq 0 f o r i = 1, 2, . . ., m \\ h_{i} (x) = 0 f o r i = 1, 2, . . ., p \end{array}

$\begin{array} {l} minimize & f_0(x)\\ subject. to & f_i(x)\le 0 \quad for i=1,2,...,m\\ &h_i(x)=0 \quad for i=1,2,...,p \end{array}$

拉格朗日函数

合并目标函数与约束条件。

$L(x,\lambda,v)=f_0(x)+\sum_{i=1}^m\lambda _if_i(x)+\sum_{i=1}^pv_ih_i(x)$

其中，主变量为x，对偶变量为 $\mathbb{\lambda \ge 0,v}$

经过这种定义，一般约束问题转换为以下主问题：

$p^*=min_x(max_{\lambda,v}L(x,\lambda,v))$

因为， $max_{\lambda,v}L(x,\lambda,v)=f_0(x)+max_{\lambda,v}(\lambda^Tf(x)+v^Th(x))$ ，

当x在可行域内时， $v^Th(x) = 0$ ， $\lambda^Tf(x) \le 0$ 的最大值为0，因此上式 $max_{\lambda,v}L(x,\lambda,v)=f_0(x)$
当x不在可行域，在定义域D内时，如果 $h_i(x) \ne 0$ ，可以令对应的 $v_i=\infty$ ,从而 $max_{\lambda,v}L(x,\lambda,v)=\infty$ ，即 $p^*=\infty$ ，该问题不可行。如果 $f_i(x) \ge 0$ ,也可以令对应的 $\lambda_i=\infty$ ，从而 $max_{\lambda,v}L(x,\lambda,v)=\infty$ ，即 $p^*=\infty$ ，该问题不可行。

也就是，x在可行域时，主问题与原约束问题等价。当x不在可行域时，主问题返回 $p^*=\infty$ ，原问题不可行。综上，主问题与原问题等价。

对偶函数

定义对偶函数为：

$g(\lambda,v)=min_{x \in D}(L(x,\lambda,v))=min_{x \in D}(f_0(x)+f(x)^T\lambda+h(x)^Tv)$

括号里的函数 $\theta(\lambda,v)=(f_0(x)+f(x)^T\lambda+h(x)^Tv)$ 可以看作是 $\lambda,v$ 的仿射函数（ $a^Tx+b$ ），仿射函数是既凸且凹的。这里不妨认为是凹函数。根据凸函数的逐点最大性质，可以得到凹函数的逐点最小函数是凹函数。 $g(\lambda,v)$ 是 $\theta(\lambda,v)$ 函数的逐点下确界，因此 $g(\lambda,v)$ 是凹函数 （与原函数的凹凸性质无关）。

注意，这里的x是属于定义域的。

对偶函数提供了最优值的下界，证明如下：

如果 $\tilde x$ 是一个可行点，则

\begin{aligned} (1) & g (λ, v) = m i n_{x \in D} L (x, λ, v) & \leq L (\tilde{x}, λ, v) \\ (2) & = f_{0} (\tilde{x}) + λ^{T} f (\tilde{x}) + v^{T} h (\tilde{x}) \\ (3) & \leq f_{0} (\tilde{x}) \end{aligned}

$\begin{align} g(\lambda,v)=min_{x \in D}L(x,\lambda,v) & \le L(\tilde x,\lambda,v)\\ &=f_0(\tilde x)+\lambda^Tf(\tilde x)+v^Th(\tilde x)\\ &\le f_0(\tilde x) \end{align}$
因此，当

\tilde{x}

$\tilde x$ 取最优解时，

g (λ, v) \leq f_{0} (x^{*}) = p^{*}

$g(\lambda,v) \le f_0(x^*)=p^*$

对偶问题

定义对偶问题为：

\begin{array}{l} m a x i m u m & g (λ, v) \\ s u b j e c t . t o & λ_{i} \geq 0 \end{array}

$\begin{array} {l} maximum &g(\lambda,v)\\ subject. to &\lambda_i \ge 0\\ \end{array}$
目标函数为

m a x_{λ \geq 0, v} m i n_{x \in D} (L (x, λ, v))

$max_{\lambda \ge 0,v}min_{x \in D}(L(x,\lambda,v))$

这是一个凹函数在凸集（ $\lambda \ge 0$ ）上的最大化问题，也就是凸函数在凸集上的最小化问题。这是一个凸优化问题，其最优解记为 $d^*$ ，对应的极值点为 $\lambda ^*, v^*$ 。

其特点是：不论原问题是否为凸优化问题，其对偶问题为凸优化问题，且有 $d^* \le p^*$

强弱对偶解释

弱对偶： $d^* \le p^*$ ,不论原问题是否为凸优化问题，

强对偶： $d^* = p^*$ ，通常是不成立的。当时对于凸优化问题，当满足一定条件之后就会成立，这些条件称为限定条件。其中一个比较简单的限定条件是Slater条件。

对于凸优化问题，如果满足Slater条件（对于不等式约束，存在内点x，使得 $f_i(x) \lt 0,i=1,...,m$ 均成立，且 $h_i(x)=0$ ）则对偶问题为强对偶。（这是一个充分条件）

注意，在Slater条件中，如果 $f_i(x),i=1,...k$ 是仿射函数，则Slater条件简化为：

$f_i(x)\le 0,i=1,...k,f_i(x) \lt 0,i=k+1,...,m,h_i(x)=0$

从工程角度，凸优化问题通常满足强对偶。

从对偶问题求解主问题

假设 $f_i(x),h_i(x)$ 可微，有KKT条件：

$f_i(x^*) \le 0,i=1,...,m$ 即 $\nabla_{\lambda}L(x^*,\lambda,v)=0$
$h_i(x^*)=0,i=1,...,p;即\nabla_{v}L(x^*,\lambda,v)=0$
$\lambda_i \ge 0$ 拉格朗日函数不等式条件
$\lambda_i^*f_i(x^*)=0$ 互补条件， $\lambda_i^*,f_i(x^*)$ 不同时为零，可以用于筛选解。
$\nabla_xL(x^*,\lambda^*,v^*)=0$ 即 $\nabla f_0(x^*)+\sum_{i=1}^m\lambda _i^*\nabla f_i(x^*)+\sum_{i=1}^pv_i^*\nabla h_i(x^*)=0$

其中，1,2为主问题可行性条件，3为对偶问题可行性条件，4为互补条件，5为stationarity条件。

互补条件为什么不同时为零？

必要性

假设强对偶成立（例如满足Slater条件）， $(x^*,\lambda^*,v^*)$ 是主问题和对偶问题的解，则可以推导得到：

\begin{aligned} (4) & p^{*} = f_{0} (x^{*}) = d^{*} & = g (λ^{*}, v^{*}) \\ (5) & = m i n_{x \in D} (L (x, λ, v)) \\ (6) & = m i n_{x \in D} (f_{0} (x) + f (x)^{T} λ^{*} + h (x)^{T} v^{*}) \\ (7) & \leq (f_{0} (x^{*}) + f (x^{*})^{T} λ^{*} + h (x^{*})^{T} v^{*}) \\ (8) & \leq f_{0} (x^{*}) \end{aligned}

$\begin{align} p^*=f_0(x^*)=d^*&=g(\lambda^*,v^*)\\ &=min_{x \in D}(L(x,\lambda,v))\\ &=min_{x \in D}(f_0(x)+f(x)^T\lambda^*+h(x)^Tv^*)\\ & \le (f_0(x^*)+f(x^*)^T\lambda^*+h(x^*)^Tv^*) \\ & \le f_0(x^*) \end{align}$
因此，上面的不等式中等号成立，可以得到：

$\lambda_i^*f_i(x^*)=0$ 这个称为互补条件
$g(\lambda^*,v^*)=L(x^*,\lambda^*,v^*)$ 即 $L(x,\lambda^*,v^*)$ 在 $x^*$ 处取得极值，因此， $\nabla_xL(x^*,\lambda^*,v^*)=0$

因此：如果 $(x^*,\lambda^*,v^*)$ 是主问题和对偶问题的解，且满足强对偶，则 $(x^*,\lambda^*,v^*)$ 满足KKT条件。

注意，这里并没有限定原问题是凸问题

充分性

如果 $(x^*,\lambda^*,v^*)$ 满足KKT条件，则：

$g(\lambda^*,v^*)=(f_0(x^*)+f(x^*)^T\lambda^*+h(x^*)^Tv^*)=f_0(x^*)$

第一个等号成立是由于stationarity 条件，第二个等号成立是互补条件。

因此，如果 $(x^*,\lambda^*,v^*)$ 满足KKT条件，则 $(x^*,\lambda^*,v^*)$ 分别是主问题和对偶问题的解。

结论

KKT总是充分条件，当满足强对偶时，是必要条件。

以上称为一阶KKT条件，类比于无约束问题中的梯度等于0（当没有约束时，KKT的第5个条件约减为 $\nabla f_0(x^*)=0$ ）。因此，对于凸优化问题，满足一阶KKT条件就满足强对偶，可以通过求解一阶KKT条件得到问题的解。（类比于无约束问题的直接法（梯度为0法））。

对于非凸问题，一阶KKT条件是局部极小解的必要条件，还需要结合二阶KKT条件进行判断。（类比与无约束问题中的梯度=0，可能是极小、极大或鞍点，需要结合Hessian矩阵进行判断）。

总结主对问题

案例

案例1 最小二范数解

该问题是一个凸优化问题，并且满足强对偶，首先写出其拉格朗日形式及对偶函数。为了求出对偶函数的形式，将拉格朗日函数对x求偏导，得到 $x^*$ 关于v的函数。带入得到对偶函数 $g(v)$ 的形式。

原问题转换为对偶问题，再次求得，得到 $v^*,d^*$ ，并进一步得到 $x^*$ 。

案例2 LP问题

LP问题是典型凸优化问题，写出拉格朗日形式及对偶函数。

观察对偶函数，后一项是关于x的线性变化，类似于一条直线，因此，当系数为0时，会取得0，否则会取得 $-\infty$ ，因此，对偶函数可以写成如下形式。从而对偶问题也是LP问题。

因此，LP问题的对偶问题也是LP问题。可以采用内点法求解。（具体可以参考Boyd书中的第11章）

4.5 SVM

SVM主要用于求解分类问题，通过扩展也可以求解回归问题（SVR）

SVM建模

对于分类问题(假定线性可分)，其目标是求一个超平面 $w^Tx+b$ 将空间划分为两个半空间，分别对应正样本和负样本。这种超平面可能有很多种，要寻找最优的超平面。最优解要具有鲁棒性，能够尽可能的分开这两类样本。

为了数学描述，定义几何间隔（Geometric margin）：所有样本点中，距离超平面最近的样本点到超平面的距离。（点到超平面的距离(参见)[1.2.2 超平面]）

$M=min_i(\dfrac{|w^Tx_i+b|}{\|w\|_2})$

因此，SVM的目标函数可以写为：

$max_{w,b}\{min_i(\dfrac{|w^Tx_i+b|}{\|w\|_2})\}$

下面对目标函数进行化简，首先， $|w^Tx_i+b|=y_i(w^Tx_i+b)$ ，这里 $y_i$ 是样本标签，正样本定义为+1，负样本定义为-1。此时目标函数写为：

$max_{w,b}\{\dfrac{1}{\|w\|_2}min_i(y_i(w^Tx_i+b))\}$

如果将w，b同时缩放k倍，点到超平面的距离（ $H(y)=\dfrac{|w^Ty+b|}{\|w\|}$ ）是不变的。因此，可以通过缩放，使得对于距离超平面最近的点有： $y_i(w^Tx_i+b)=1$

则， $y_i(w^Tx_i+b)\ge1$ 成立。

此时，目标函数可以写为：

$max_{w,b}\{\dfrac{1}{\|w\|_2}\},\quad subject\ to\quad y_i(w^Tx_i+b)\ge1$

进一步可以写为：1/2是为了求导方便

$min_{w,b}\{\dfrac{1}{2}\|w\|_2^2\},\quad subject\ to\quad y_i(w^Tx_i+b)\ge1$

其几何解释为：下图中 $L1:w^Tx+b=1$ , $L2:w^Tx+b=-1$ ，其中红色和蓝色距离超平面最近点的距离都是 $\dfrac{1}{\|w\|_2}$ ,因此 $\rho=\dfrac{2}{\|w\|_2}$ 。SVM的目标就是使得 $\rho$ 最大，最近点到超平面的向量称为支撑向量。

SVM求解

解法一

通过对比4.3节凸优化问题实例中的例子，SVM问题可以转换成标准QP问题。可以直接使用内点法进行求解。但是，当样本数量N很大时，这种方法效率较低。

解法二，SVM对偶问题

首先写出SVM问题的拉格朗日函数：

$L(w,b,\lambda)=\dfrac{1}{2}w^Tw+\sum_{i=1}^{N}\lambda _i(1-y_i(w^Tx_i+b)$

因此，其对偶问题的最优解为：

$d^*=max_{\lambda\ge 0}\{min_{w,b}L(w,b,\lambda)\}$

其中，对偶函数 $min_{w,b}L(w,b,\lambda)$ 可以通过拉格朗日函数分别对w和b求偏导等于0得到，即

$\nabla_wL(w,b,\lambda)=w-\sum_{i=1}^{N}\lambda _iy_ix_i=0 \to w=\sum_{i=1}^{N}\lambda _iy_ix_i$

$\nabla_bL(w,b,\lambda)=\sum_{i=1}^{N}\lambda _iy_i=0$

将上式得到的w，b带入拉格朗日函数，则对偶问题变为：

\begin{array}{l} m a x_{λ} & \sum_{i = 1}^{N} λ_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{i = j}^{N} λ_{i} λ_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ s u b j e c t . t o & \sum_{i = 1}^{N} λ_{i} y_{i} = 0; λ_{i} \geq 0; i = 1, . . ., N \end{array}

$\begin{array} {l} max_\lambda &\sum_{i=1}^N\lambda_i-\dfrac{1}{2}\sum_{i=1}^N\sum_{i=j}^N \lambda_i\lambda_jy_iy_jx_i^Tx_j\\ subject. to &\sum_{i=1}^{N}\lambda _iy_i=0;\ \lambda_i \ge 0;i=1,...,N\\ \end{array}$
可以看到，上面的问题是关于

λ

$\lambda$ 的QP问题。 QP问题的对偶问题也是QP问题 从这个角度，转换为对偶问题并没有简化SVM的计算量，但是这个问题有一个快速SMO算法。

假定对偶问题能够求解出 $\lambda^*$ ,由于SVM问题目标函数为凸函数，且满足Slater条件，因此是强对偶问题。满足KKT条件，则：

\begin{aligned} (9) & y_{i} ({w^{*}}^{T} x_{i} + b^{*}) \geq 1 \\ (10) & λ_{i}^{*} \geq 0 \\ (11) & λ_{i}^{*} (y_{i} ({w^{*}}^{T} x_{i} + b^{*})) = 0 (互 补 条 件) \\ (12) & w^{*} = \sum_{i = 1}^{N} λ_{i}^{*} y_{i} x_{i}; \sum_{i = 1}^{N} λ_{i}^{*} y_{i} = 0 \end{aligned}

$\begin{align} & y_i({w^*}^Tx_i+b^*) \ge 1 \\ & \lambda_i^* \ge 0 \\ & \lambda_i^*( y_i({w^*}^Tx_i+b^*) )=0(互补条件)\\ & w^*=\sum_{i=1}^{N}\lambda _i^*y_ix_i;\sum_{i=1}^{N}\lambda _i^*y_i=0 \end{align}$
从互补条件可以看出：

$\lambda_i^*>0, y_i({w^*}^Tx_i+b^*) =1$ ，对应支撑向量，对 $w^*$ 有贡献
$\lambda_i^*=0, y_i({w^*}^Tx_i+b^*) >1$ ，对应非支撑向量，对 $w^*$ 无贡献，但是对求解 $\lambda^*$ 有贡献。

因此， $\lambda_i=0$ 对应的点在最后求 $w$ 时可以不保存。剩余点满足 $y_j({w^*}^Tx_j+b^*) =1$ ,将 $w^*$ 带入可以求得 $b^*=y_j-\sum_{i=1}^N\lambda_i^*y_ix_i^Tx_j$

最终，SVM的决策函数为：

f (x) = s i g n (\sum_{i = 1}^{N} λ_{i}^{*} y_{i} x_{i} x + b^{*})

$f(x)=sign\big(\sum_{i=1}^N\lambda^*_i y_i x_i x+b^*\big)$

SMO算法

对于以下无约束问题

$max_\lambda W(\lambda_i,i=1,...m)$

可以通过依次固定除 $\lambda_i$ 之外的其他值，来求解 $\lambda_i$ 的方式迭代求解，只要保证每次迭代函数值是上升的。

将这种方法应用到SVM中，但是由于约束条件 $\sum\lambda_iy_i=0$ ，因此每次保留两个参数 $\lambda_i,\lambda_j$ 自由，固定其他参数，求解SVM对偶问题，求得 $\lambda_i,\lambda_j$ ，其中，由于有约束条件， $\lambda_j$ 可以由 $\lambda_i$ 来表示。因此，每次是求解关于 $\lambda_i$ 的单变量QP问题，仅有的约束是 $\lambda_i \ge 0$ ，是一个一维搜索问题。

参考文献：Platt. J, Sequential minimal optimization: A fast algorithm for training support vector machines. Technical Report MSR-TR-98-14, Microsoft Research.

SVM扩展

软间隔

在建立SVM模型时，假定正负样本是线性可分的。但是，实际有些时候，样本不是完全线性可分的，会出现交错的情况，例如下图。

这时，如果采用以下模型

$min_{w,b}\{\dfrac{1}{2}\|w\|_2^2\},\\ subject\ to\quad y_i(w^Tx_i+b)\ge1$

可能就没有可行解。针对这种情况，建立如下模型，称为软间隔

$min_{w,b}\{\dfrac{1}{2}\|w\|_2^2+C\sum_{i=1}^N\xi_i\},\quad \\subject\ to\quad y_i(w^Tx_i+b)\ge1-\xi_i;i=1,...,N\\ \xi_i \ge 0$

这个就是4.3中给出的例子，也是一个QP问题。其中， $\xi_i$ 为容忍度，可以优化得到。C为参数，需要根据经验调整。

这个问题跟几何间隔的问题一样，可以转换为对偶问题，然后通过SMO算法求解。

核函数

当样本完全线性不可分时，例如下图中左图所示，其中一个方法是使用非线性拟合，另一个方法是通过特征映射 $x \mapsto \phi(x)$ ,将低维特征映射到高维空间，在这个高维空间中，可能就线性可分，如图中右图所示。

这样，经过映射后，原SVM模型中的x由 $\phi(x)$ 代替：

$min_{w,b}\{\dfrac{1}{2}\|w\|_2^2\},\\ subject\ to\quad y_i(w^T\phi(x_i)+b)\ge1$

则对偶问题转换为：

\begin{array}{l} m a x_{λ} & \sum_{i = 1}^{N} λ_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{i = j}^{N} λ_{i} λ_{j} y_{i} y_{j} ϕ (x_{i})^{T} ϕ (x_{j}) \\ s u b j e c t . t o & \sum_{i = 1}^{N} λ_{i} y_{i} = 0; λ_{i} \geq 0; i = 1, . . ., N \end{array}

$\begin{array} {l} max_\lambda &\sum_{i=1}^N\lambda_i-\dfrac{1}{2}\sum_{i=1}^N\sum_{i=j}^N \lambda_i\lambda_jy_iy_j\phi(x_i)^T\phi(x_j)\\ subject. to &\sum_{i=1}^{N}\lambda _iy_i=0;\ \lambda_i \ge 0;i=1,...,N\\ \end{array}$
其中，直接计算

ϕ (x_{i})^{T} ϕ (x_{j})

$\phi(x_i)^T\phi(x_j)$ 是很困难的，一是由于维度大，二是由于

ϕ (x)

$\phi(x)$ 的形式难以确定。

因此，这里定义核函数：

$\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$

则最终决策函数可以写为：

f (x) = s i g n (\sum_{i = 1}^{N} λ_{i}^{*} y_{i} κ (x_{i}, x) + b^{*})

$f(x)=sign\big(\sum_{i=1}^N\lambda^*_i y_i\kappa( x_i, x)+b^*\big)$
常见核函数有

在实际使用过程中，一般先用高斯核试一下效果。

更详细的相关模型可以参照“Pattern Recognition and Machine Learning”一书