SVM支持向量机系列理论（二）线性可分SVM模型的对偶问题

- - 2.1 对偶问题

2.1 对偶问题

2.1.1 原始问题的转换

a. 转换形式

SVM算法的经典问题是一个凸二次规划模型，求解这个问题比较复杂。

m i n_{w, b} \frac{1}{2} {| | w | |}^{2}

$min_{ \ w,b} \ \ \frac{1}{2}{||w||}^2$

s . t . y_{i} (w \cdot x_{i} + b) \geq 1 (i = 1, . . ., N) (7)

$s.t. \ \ \ y_i{(w \cdot x_i + b )}{} \geq {1}{} \ \ \ \ (i = 1, ... , N) \ \ \ \ \ \ \ \ \ (7)$

（7）这个问题其实等价于“对拉格朗日函数 $\ \ L(w,b,\alpha)$ 求关于拉格朗日乘子 $\alpha$ 的最大, 然后再对 $\ \ L(w,b,\alpha)$ 求关于 $w,b$ 的最小，”即(7)可以写为：

p^{*} = m i n_{w, b} m a x_{α, α_{i} \geq 0} L (w, b, α) = m i n_{w, b} θ_{P} (w, b) (8)

$p^*=min_{w,b} max_{\alpha \ ,\alpha_i\ge0}L(w,b,\alpha) =min_{w,b}\theta _P(w,b) \ \ \ \ \ \ \ \ \ (8)$

b. 证明过程：

这个转换其实就是把约束条件 $g_i(w) \leq 0$ 转化到拉格朗日函数中去。

$max_{\alpha \ ,\alpha_i\ge0}L(w,b,\alpha)$ 表示对L取关于a的最后大化，观察拉格朗日函数的形式：

$L(w,b,\alpha) = f(w) + \sum a_i \cdot g(wi) ; \alpha_i \geq 0$

现在, $a_i \geq 0$ ，对 $L(w,b,\alpha)$ 作关于 $\alpha$ 的最大化,那么：

当 $g(w_i) \leq 0$ （即满足约束条件）时，L（w，b，a）的最大为 f（w）；
当 $g(w_i) > 0$ 时，L（w，b，a）的最大为正无穷大。

这样 $max_{\alpha \ ,\alpha_i\ge0}L(w,b,\alpha)$ 是一个分段函数。第一段是满足约束条件时，有函数f（w），第二段是一个正无穷大。这时要对这个分段函数取min，那么肯定是选择对满足约束条件时的f（w）取min，因为第二段是正无穷大。

这样，就把一个约束问题转化成无约束问题。

注：

这里还可以看出 $L(w,b,\alpha)$ 要最大，那么必须有 $\alpha_i g(w_i) = 0$ 也就是拉格朗日乘子和约束中至少有一个为0；这就是KKT条件中的松弛互补条件

2.2.2 强对偶性和弱对偶性

上面提到，原始问题可以转化为拉格朗日函数的无约束问题：

p^{*} = m i n_{w, b} m a x_{α, α_{i} \geq 0} L (w, b, α) = m i n_{w, b} θ_{P} (w, b) (8)

$p^*=min_{w,b} max_{\alpha \ ,\alpha_i\ge0}L(w,b,\alpha) =min_{w,b}\theta _P(w,b) \ \ \ \ \ \ \ \ \ (8)$

那么，其对偶问题可以写为：

d^{*} = m a x_{α, α_{i} \geq 0} m i n_{w, b} L (w, b, α) = m a x_{α} θ_{D} (α) (9)

$d^*=max_{\alpha \ ,\alpha_i\ge0}min_{w,b} L(w,b,\alpha) =max_{\alpha}\theta _D(\alpha) \ \ \ \ \ \ \ \ \ (9)$
实际上，对偶问题的解是原始问题的一个下界

d^{*} \leq p^{*}

$d^* \leq p^*$ ，这个性质叫做 弱对偶性。若在 kkt条件或者slater条件下，有

d^{*} = p^{*}

$d^* = p^*$ ，则称为 强对偶性。

由于该问题是凸二次规划问题，且该问题有解。因此只要满足Slater条件)，那么强对偶性成立（统计学习定理C.2）。那么可以将原始问题转化为对偶问题的求解：

p^{*} = d^{*} = L (w^{*}, b^{*}, α^{*}) (10)

$p^* = d^* = L(w^*,b^*,\alpha^* ) \ \ \ \ \ \ \ \ \ (10)$

在svm的原始问题其实刚好满足Slater条件（“若原始问题为凸优化问题, 存在一个w，使得 $g_i(w^*)<0$ ”成立），因为如果存在一个 $w^*,$ 让 $g_i(w) \leq 0$ ，那么总能通过把 $w^*$ 放大或缩小一定倍数，使得这个约束变成严格成立，也就是slater条件成立。

综上所述，现在求解原始问题转化为求解对偶问题
$d^*=max_{\alpha \ ,\alpha_i\ge0}min_{w,b} L(w,b,\alpha)$

2.3.3 SVM模型的对偶问题形式求解

第一步，写出拉格朗日函数 $\ \ L(w,b,\alpha)$

L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{N} α_{i} g_{i} (x)

$L(w,b,\alpha)=\frac{1}{2}||w||^2+ \sum_{i=1}^N\alpha_ig_i(x)$

= \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{N} α_{i} (1 - y_{i} (w x_{i} + b))

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\frac{1}{2}||w||^2+ \sum_{i=1}^N\alpha_i(1-y_i(wx_i + b))$

= \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{N} α_{i} - \sum_{i = 1}^{N} α_{i} y_{i} (w x_{i} + b)) (11)

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\frac{1}{2}||w||^2+ \sum_{i=1}^N\alpha_i- \sum^{N}_{i=1}\alpha_iy_i(wx_i + b)) \ \ \ \ \ \ \ \ \ (11)$

拉格朗日函数 $\ \ L(w,b,\alpha)$ 对w，b求偏导数并令其为0，得：

▽_{w} L (w, b, α) = w - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0

$\triangledown _{w}L(w,b,\alpha) = w - \sum^{N}_{i=1} \alpha_iy_ix_i =0$

w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} (12)

$w = \sum^{N}_{i=1} \alpha_iy_ix_i \ \ \ \ \ \ \ \ \ (12)$

▽_{b} L (w, b, α) = \sum_{i = 1}^{N} α_{i} y_{i} = 0

$\triangledown _{b}L(w,b,\alpha) = \sum^{N}_{i=1} \alpha_iy_i =0$

\sum_{i = 1}^{N} α_{i} y_{i} = 0 (13)

$\sum^{N}_{i=1} \alpha_iy_i =0 \ \ \ \ \ \ \ \ \ (13)$

第二步，求 $min_{w,b} L(w,b,\alpha)$ .

将上面求偏导数的结果（12）、（13）式代入（11）中的拉格朗日函数，即得到 $min_{w,b} L(w,b,\alpha)$

m i n_{w, b} L (w, b, α) = \frac{1}{2} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b) + \sum_{i = 1}^{N} α_{i}

$min_{w,b} L(w,b,\alpha) = \frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_j(x_i \cdot x_j) - \sum^{N}_{i=1}\alpha_iy_i((\sum^{N}_{j=1}\alpha_jy_jx_j) \cdot x_i+b) + \sum^{N}_{i=1}\alpha_i$

= - \frac{1}{2} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} (14)

$= -\frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_j(x_i \cdot x_j) + \sum^{N}_{i=1}\alpha_i\ \ \ \ \ \ \ \ \ (14)$

第三步，求 $max_{\alpha} min_{w,b}L(w,b,\alpha)$ .即是对偶问题：

m a x_{α} - \frac{1}{2} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

$max_\alpha \ \ \ \ -\frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_j(x_i \cdot x_j) + \sum^{N}_{i=1}\alpha_i$

s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0

$s.t. \ \ \ \ \sum^{N}_{i=1} \alpha_iy_i =0$

α_{i} \geq 0, i = 1, 2, . . ., N (15)

$\ \ \ \ \ \ \ \ \ \ \ \ \alpha_i \geq 0, i = 1,2,..., N \ \ \ \ \ \ \ \ \ (15)$

第四步，转化为等价的一般形式对偶问题

m i n_{α} \frac{1}{2} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}

$min_\alpha \ \ \ \ \frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_j(x_i \cdot x_j) - \sum^{N}_{i=1}\alpha_i$

s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0

$s.t. \ \ \ \ \sum^{N}_{i=1} \alpha_iy_i =0$

α_{i} \geq 0, i = 1, 2, . . ., N (16)

$\ \ \ \ \ \ \ \ \ \ \ \ \alpha_i \geq 0, i = 1,2,..., N \ \ \ \ \ \ \ \ \ (16)$

这就得到了线性可分SVM的对偶问题模型，可以用SMO算法求解出对偶问题的最优解 $\alpha^* = (\alpha_1^*, ..., \alpha_N^*)$

然后就可以计算 $w^*$ 和 $b^*$ .

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} (17)

$w^* = \sum^{N}_{i=1} \alpha_i^*y_ix_i\ \ \ \ \ \ \ \ \ (17)$

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j}) (18)

$b^* = y_j - \sum^{N}_{i=1} \alpha_i^*y_i(x_i \cdot x_j) \ \ \ \ \ \ \ \ \ (18)$

具体证明利用了KKT条件。这里注意KKT条件是强对偶 $d^* = p^*$ `的充分必要条件。而上面的问题是强对偶，因此必须满足kkt条件。（17）利用kkt条件中拉格朗日函数对w求偏导数等于零，（18）利用kkt条件中互补松弛条件 $\alpha_i^* g_i(w) = 0$ ，并且注意 $1 = y_j^2$

证明：

KKT条件如下：

$\nabla_w L(w,b,\alpha) =w^* - \sum^{N}_{i=1} \alpha_i^*y_ix_i = 0 \ \ \ \ \ \ \ \ \ (I)$

$\nabla_b L(w,b,\alpha) =- \sum^{N}_{i=1} \alpha_i^*y_i = 0 \ \ \ \ \ \ \ \ \ (II)$

$\alpha_i^* [y_i(w^*x_i+b^*)-1] = 0 \ \ \ i = 1,2,...,N\ \ \ \ \ \ \ \ \ (III)$

$y_i(w^*x_i+b^*) -1 \geq 0 ;\ \ \ i = 1,2,...,N\ \ \ \ \ \ \ \ \ (IV)$

$\alpha_i \geq 0; \ \ \ i = 1,2,...,N\ \ \ \ \ \ \ \ \ (V)$

由（I），得：

$w^* = \sum^{N}_{i=1} \alpha_i^*y_ix_i\ \ \ \ \ \ \ \ \ (17)$

由（III）互补松弛条件得：

$y_j(w^*x_j+b^*) -1 = 0\ \ \ \ \ \ \ \ \$

$y_j((\sum^{N}_{i=1} \alpha_i^*y_ix_i) \cdot x_j+b^*) - y_j^2 = 0\ \ \ \ \ \ \ \ \$

则：

$b^* = y_j - \sum^{N}_{i=1} \alpha_i^*y_i(x_i \cdot x_j)$

注：

计算 $b^*$ 只需要一个 $\alpha_j^* >0$ 的点
计算 $w^*$ 只需要所有 $\alpha^* >0$ 的点，并且注意得到，w 其实就是 x的线性组合，而且x都是支持向量的x。

因此，从这可以看出最佳分离超平面只依赖于支持向量。

2.3.4 支持向量的再定义

由互补松弛条件，我们有

$\alpha_i^* [y_i(w^*x_i+b^*)-1] = 0 \ \ \ i = 1,2,...,N\ \ \ \ \ \ \ \ \ (III)$

因此，当 $\alpha_i^*>0$ 时，必有 $y_j(w^*x_j+b^*) -1 = 0\ \ \ \ \ \ \ \ \$ ，即 $\alpha_i^*>0$ 对应的样本点 $(x_i,y_i)$ 是支持向量，从（17）、（18）来看， $w^*,b^*$ 依赖于 $\alpha_i^*>0$ 的样本点。

参考博文：

http://www.cnblogs.com/ooon/p/5723725.html