SVM从入门到精通(三)

前面，对于线性可分的数据，我们采用硬间隔最大化的策略，来训练线性可分支持向量机。回忆一下，之前的最优化问题的表示为：

min_{ω, b} \frac{1}{2} ‖ ω ‖^{2} s . t . y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, \dots, N

$\min\limits_{\omega,b} \frac{1}{2}\lVert\omega\rVert^2 \\ s.t. y_i(\omega\cdot x_i + b) - 1 \geq 0, i = 1, 2,\cdots,N$ 我们可以将其称为原始问题。通过拉格朗日对偶性，通过求解对偶问题(dual problem)来得到原始问题(primal problem)的最优解。这就是线性可分支持向量机的对偶算法。
引入对偶问题的主要目的就是让问题更容易求解。还有一点就是自然引入核函数，从而将SVM推广到非线性分类问题中。

拉格朗日函数

原始问题

我们说利用拉格朗日对偶性去简化问题，那拉格朗日对偶性是啥呢?(大学微积分里好像学过···) 接下来进行简单介绍。
首先，拉格朗日对偶性主要是用来求解约束最优化问题的。那问题的表现形式是什么呢？也就是原始问题：假设 $f(x),c_i(x),h_j(x)$ 是定义在 $R^n$ 上的连续可微函数，考虑约束最优化问题：

min_{x \in R^{n}} f (x) \dots \dots (1)

$\min\limits_{x\in R^n} f(x) \cdots \cdots(1)$

s . t . c_{i} (x) \leq 0, h_{j} (x) = 0 \dots \dots (2)

$s.t. c_i(x) \leq 0,h_j(x) = 0\cdots\cdots(2)$
那么拉格朗日对偶性怎么用到这个问题上呢？
首先，我们引入拉格朗日函数

L (x, α, β) = f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{l} β_{j} h_{j} (x)

$L(x,\alpha,\beta) = f(x) + \sum_{i = 1}^k \alpha_i c_i(x) + \sum_{j = 1}^l \beta_j h_j(x)$ 这里

α_{i}, β_{j}

$\alpha_i,\beta_j$ 就是拉格朗日乘子，

α_{i} \geq 0

$\alpha_i \geq 0$ .
由上面的(2)式，我们知道

h_{j} (x)

$h_j(x)$ 是都为0的，所以和也应该是0的；

c_{i} (x) \leq 0

$c_i(x) \leq 0$ ，而它的拉格朗日系数

α_{i}

$\alpha_i$ 优势大于等于0的，所以二者的乘积和是小于等于0的。我们的优化目的是使

f (x)

$f(x)$ 最小，那么三者相加，也就是我们的拉格朗日函数L = 待求最小+非正数+0，如果f(x)最小的话，那么就需要拉格朗日函数

L (x, α, β)

$L(x,\alpha,\beta)$ 最大,并且最大为f(x)。也就是，我们的原始问题可以变成以下的描述形式：

θ_{p} (x) = max_{α, β; α_{i} \geq 0} L (x, α, β)

$\theta_p(x) = \max\limits_{\alpha,\beta;\alpha_i \geq 0}L(x,\alpha,\beta)$ 这里的下标p表示primal,原始问题。
我们假设，给定某个x违反了原始问题的约束条件，那么

θ_{p} (x) = max_{α, β; α_{i} \geq 0} [f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{l} β_{j} h_{j} (x)] = + \infty

$\theta_p(x) = \max\limits_{\alpha,\beta;\alpha_i \geq 0}[ f(x) + \sum_{i = 1}^k \alpha_i c_i(x) + \sum_{j = 1}^l \beta_j h_j(x)] = +\infty$ ,相反的，如果x满足条件，就会像刚才我们分析的那样，

θ_{p} (x) = f (x)

$\theta_p(x) = f(x)$ .所以，

θ_{p} (x) = {\begin{array}{cc} f (x), & x 满 足 原 始 问 题 约 束 \\ + \infty, & o t h e r s \end{array}

$\theta_p(x) = \left\{\begin{array}{cc} f(x),&x满足原始问题约束\\ +\infty,&others \end{array}\right.$
所以，为了让经过拉格朗日函数变换的问题和原始问题等价，我们还得对

θ_{p} (x)

$\theta_p(x)$ 取极小。也就是说：

min_{x} θ_{p} (x) = min_{x} max_{α, β; α_{i} \geq 0} L (x, α, β)

$\min\limits_x\theta_p(x) = \min\limits_x \max\limits_{\alpha,\beta;\alpha_i\geq0}L(x,\alpha,\beta)$
这个是与原始问题等价的。而上式就被称为 广义拉格朗日函数的极小极大问题。因此，也就是说原始的约束最优化问题可以转化成广义拉格朗日函数的极小极大问题。
我们定义原始问题的最优值为

p^{*} = min_{x} θ_{p} (x)

$p^*=\min\limits_x\theta_p(x)$ 为原始问题的值。

对偶问题

原始问题为广义拉格朗日函数的极小极大问题，那么他的对偶问题为拉格朗日函数的极大极小问题。即：

max_{α, β; α_{i} \geq 0} θ_{D} (α, β) = max_{α, β; α_{i} \geq 0} min_{x} L (x, α, β)

$\max\limits_{\alpha,\beta;\alpha_i\geq0}\theta_D(\alpha,\beta) = \max\limits_{\alpha,\beta;\alpha_i\geq0} \min\limits_xL(x,\alpha,\beta)$

s . t . α_{i} \geq 0, i = 1, 2, \dots, N

$s.t.\alpha_i\geq0,i = 1,2,\cdots,N$
定义对偶问题的最优值

d^{*} = max_{α, β; α_{i} \geq 0} θ_{D} (α, β)

$d^* = \max\limits_{\alpha,\beta;\alpha_i\geq0} \theta_D(\alpha,\beta)$ 为对偶问题的值。

原始问题和对偶问题的关系

有了原始问题的描述形式及最优值得表示和其对偶问题得描述形式和最优值表示，二者是什么关系呢？
若原始问题和对偶问题都有最优值，二者得关系为：

d^{*} = max_{α, β; α_{i} \geq 0} min_{x} L (x, α, β) \leq min_{x} max_{α, β; α_{i} \geq 0} L (x, α, β) = p^{*}

$d^* = \max\limits_{\alpha,\beta;\alpha_i\geq0} \min\limits_xL(x,\alpha,\beta)\leq \min\limits_x \max\limits_{\alpha,\beta;\alpha_i\geq0}L(x,\alpha,\beta) = p^*$

很好证明，连接桥梁为 $L(x,\theta,\beta)$ ，一个是最小值，一个是最大值，所以 $\theta_D(\alpha,\beta)$ 肯定小于等于 $\theta_p(x)$ ,那 $\theta_D$ 得最大值肯定也小于等于 $\theta_p$ 得最小值，所以得证。

其他

如果上面得等号成立，即 $d^* = p^*$ ,那么此时得 $\alpha^*,\beta^*,x^*$ 分别是原始问题和对偶问题得最优解。
KKT条件（非常重要）
1. 对原始问题和对偶问题，假设函数 $f(x),c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数(仿射函数，即最高次数为1的多项式函数。常数项为零的仿射函数称为线性函数),并且不等式约束 $c_i(x)$ 严格可行，则 $\alpha^*,\beta^*和x^*$ 分别是对偶问题和原始问题的解的充要条件是 $\alpha^*,\beta^*和x^*$ 满足下面的KKT条件： $▽_{x} L (x^{*}, α^{*}, β^{*}) = 0 α_{i}^{*} c_{i} (x^{*}) = 0, i = 1, 2, \dots, k c_{i} (x^{*}) \leq 0, i = 1, 2, \dots, k α_{i}^{*} \geq 0, i = 1, 2, \dots, k h_{j} (x^{*}) = 0, j = 1, 2, \dots, l$ $\bigtriangledown_xL(x^*,\alpha^*,\beta^*) = 0\\ \alpha_i^*c_i(x^*) = 0, i = 1,2,\cdots,k \\ c_i(x^*) \leq0,i = 1,2,\cdots,k\\ \alpha_i^*\geq0,i =1,2,\cdots,k\\ h_j(x^*) = 0,j = 1,2,\cdots,l$ 2. 特别指出，第四个公式称为KKT的对偶互补条件。由此条件可知，若 $\alpha_i^* > 0$ ,则 $c_i(x^*) = 0.$

学习的对偶算法

讲完了拉格朗日函数以及KKT条件，接下来可以讲SVM是如何利用拉格朗日函数求解原始问题的。我们再回忆一下原始问题长什么样：

扫描二维码关注公众号，回复： 4422257 查看本文章

min_{ω, b} \frac{1}{2} ‖ ω ‖^{2} s . t . y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, \dots, N

$\min\limits_{\omega,b} \frac{1}{2}\lVert\omega\rVert^2\\ s.t. y_i(\omega\cdot x_i + b) - 1 \geq 0, i = 1, 2,\cdots,N$
按照拉格朗日法构建拉格朗日函数，里面的f(x)是

\frac{1}{2} ‖ ω ‖^{2}

$\frac{1}{2}\lVert\omega\rVert^2$ ,

c_{i} (x)

$c_i(x)$ 就是

y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, \dots, N

$y_i(\omega\cdot x_i + b) - 1 \geq 0, i = 1, 2,\cdots,N$ ,但是要注意的是，

c_{i} (x) \leq 0

$c_i(x)\leq0$ ,而我们的式子是大于等于0的，所以要变换过来，也就是

- y_{i} (ω \cdot x_{i} + b) + 1 \leq 0, i = 1, 2, \dots, N

$-y_i(\omega\cdot x_i + b) +1 \leq 0, i = 1, 2,\cdots,N$ .好了，现在可以写出我们的拉格朗日函数了：

\begin{aligned} L (ω, b, α) & = \frac{1}{2} ‖ ω ‖^{2} + \sum_{i = 1}^{N} α_{i} (- y_{i} (ω \cdot x_{i} + b) + 1) \\ = \frac{1}{2} ‖ ω ‖^{2} - \sum_{i = 1}^{N} α_{i} (y_{i} (ω \cdot x_{i} + b)) + \sum_{i = 1}^{N} α_{i} \end{aligned} 其 中 ， α_{i} \geq 0, i = 1, 2, \dots, N （ 拉 格 朗 日 乘 子 ）

$\begin{align*} L(\omega,b,\alpha)&= \frac{1}{2}\lVert\omega\rVert^2+\sum_{i=1}^N{\alpha_i(-y_i(\omega\cdot x_i + b) +1)}\\ &=\frac{1}{2}\lVert\omega\rVert^2-\sum_{i=1}^N{\alpha_i(y_i(\omega\cdot x_i + b))+\sum_{i=1}^N\alpha_i} \end{align*}\\ 其中，\alpha_i \geq0,i = 1,2,\cdots,N（拉格朗日乘子）$ 根据拉格朗日对偶性，原始问题是极小极大问题，它的对偶问题是极大极小问题，即

max_{α} min_{ω, b} L (ω, b, α)

$\max\limits_{\alpha} \min\limits_{\omega,b}L(\omega,b,\alpha)$ 所以，为了求对偶问题的解，需要先求L对

ω, b

$\omega,b$ 的极小，再求对

α

$\alpha$ 的极大。所以问题就分为了两步：
1. 求

min_{ω, b} L (ω, b, α)

$\min\limits_{\omega,b}L(\omega,b,\alpha)$
L对

ω, b

$\omega,b$ 分别求偏导，并令导数为0.即：

▽_{ω} L (ω, b, α) = ω - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0 ▽_{b} L (ω, b, α) = - \sum_{i = 1}^{N} α_{i} y_{i} = 0

$\bigtriangledown_{\omega}L(\omega,b,\alpha) = \omega - \sum_{i = 1}^N\alpha_i y_i x_i = 0\\ \bigtriangledown_{b}L(\omega,b,\alpha) = -\sum_{i = 1}^N\alpha_i y_i = 0$ 于是，我们得到

ω = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \sum_{i = 1}^{N} α_{i} y_{i} = 0

$\omega = \sum_{i = 1}^N\alpha_i y_i x_i\\ \sum_{i = 1}^N\alpha_i y_i = 0$ 讲

ω

$\omega$ 回代到拉格朗日函数

L (ω, b, α)

$L(\omega,b,\alpha)$ 中，并利用

\sum_{i = 1}^{N} α_{i} y_{i} = 0

$\sum_{i = 1}^N\alpha_i y_i = 0$ ，L函数就变成了如下：

\begin{aligned} L (ω, b, α) & = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b) + \sum_{i = 1}^{N} α_{i} \\ = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i}) \\ - b \sum_{i = 1}^{N} α_{i} y_{i} + \sum_{i = 1}^{N} α_{i} \\ = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} \end{aligned}

$\begin{align*} L(\omega,b,\alpha) &= \frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i = 1}^N\alpha_i y_i((\sum_{j = 1}^N\alpha_j y_j x_j)\cdot x_i +b) +\sum_{i = 1}^N\alpha_i \\ &=\frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i = 1}^N\alpha_i y_i((\sum_{j = 1}^N\alpha_j y_j x_j)\cdot x_i) \\-b\sum_{i = 1}^N\alpha_i y_i+\sum_{i = 1}^N\alpha_i \\ &=-\frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)+\sum_{i = 1}^N\alpha_i \end{align*}\\$ 即

min_{ω, b} L (ω, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

$\min\limits_{\omega,b}L(\omega,b,\alpha) = -\frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)+\sum_{i = 1}^N\alpha_i$
2. 求

min_{ω, b} L (ω, b, α)

$\min\limits_{\omega,b}L(\omega,b,\alpha)$ 对

α

$\alpha$ 的极大

max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} \geq 0, i = 1, 2, \dots, N

$\max\limits_{\alpha}-\frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)+\sum_{i = 1}^N\alpha_i \\ s.t. \sum_{i = 1}^N\alpha_i y_i = 0 \\ \alpha_i \geq0,i= 1,2,\cdots,N$ 将上式由求极大变成求极小，也就是加个负号，就变成了

min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} \geq 0, i = 1, 2, \dots, N

$\min\limits_{\alpha}\frac{1}{2}\sum_{i =1}^N\sum_{j =1}^N\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i = 1}^N\alpha_i \\ s.t. \sum_{i = 1}^N\alpha_i y_i = 0 \\ \alpha_i \geq0,i= 1,2,\cdots,N$ 上面三式就是原始问题的对偶问题，并且存在

ω^{*}

$\omega^*$ 是原始问题的解，

α^{*}, β^{*}

$\alpha^*,\beta^*$ 是对偶问题的解。
对线性可分数据集，假设对偶最优化问题对

α

$\alpha$ 的解为

α^{*} = (α_{1}^{*}, α_{2}^{*}, \dots, α_{N}^{*})^{T}

$\alpha^* = (\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T$ ,可以由

α^{*}

$\alpha^*$ 求得原始最优化问题的解

(ω^{*}, b^{*})

$(\omega^*,b^*)$ ，有如下关系

ω^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} b * = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

$\omega^* = \sum_{i = 1}^N\alpha_i^* y_i x_i\\ b* = y_j - \sum_{i = 1}^N\alpha_i^* y_i(x_i \cdot x_j)$

我认为，利用对偶问题求解，主要简化了待求参数的数量。在原始问题中，为了求间隔最大的分离超平面，将问题转化成了约束最优化问题，需要求的参数为 $\omega,b$ ,两个。但是对偶问题，我只需要求一个 $\alpha$ ，利用 $\alpha$ 就可以得到 $\omega,b$ 。而且，只有一个参数的最优化问题理论上来说也更好解。

推导过程(根据KKT条件)
根据KKT条件，有：

▽_{ω} L (ω^{*}, b^{*}, α^{*}) = ω^{*} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} = 0 ▽_{b} L (ω^{*}, b^{*}, α^{*}) = - \sum_{i = 1}^{N} α_{i}^{*} y_{i} = 0 α_{i}^{*} (y_{i} (ω^{*} \cdot x_{i} + b^{*}) - 1) = 0 y_{i} (ω^{*} \cdot x_{i} + b^{*}) - 1 \geq 0 α_{i}^{*} \geq 0

$\bigtriangledown_\omega L(\omega^*,b^*,\alpha^*) = \omega^* - \sum_{i = 1}^N\alpha_i^* y_i x_i = 0 \\ \bigtriangledown_{b}L(\omega^*,b^*,\alpha^*) = -\sum_{i = 1}^N\alpha_i^* y_i = 0 \\ \alpha_i^*(y_i(\omega^*\cdot x_i + b^*)-1) = 0 \\ y_i(\omega^*\cdot x_i + b^*)-1\geq0 \\ \alpha_i^*\geq0$ 由此可得：

ω^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

$\omega^* = \sum_{i = 1}^N\alpha_i^* y_i x_i$ 其中，至少有一个

α_{j}^{*} > 0

$\alpha_j^* > 0$ （反证法），对此j有

y_{j} (ω^{*} \cdot x_{j} + b^{*}) - 1 = 0 （ * ）

$y_j(\omega^*\cdot x_j + b^*)-1 = 0（*）$ .而

y_{j}

$y_j$ 是代表类别的，取值只有{+1,-1},所以

y_{j}^{2} = 1

$y_j^2 = 1$ .将

ω^{*}

$\omega^*$ 取值代入(*)式，左右两侧同乘

y_{j}

$y_j$ ,即得

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

$b^* = y_j - \sum_{i = 1}^N\alpha_i^* y_i(x_i\cdot x_j)$ 因此分离超平面就可以写成

\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*} = 0

$\sum_{i = 1}^N\alpha_i^* y_i(x\cdot x_i) + b^* = 0$ 分类决策函数就可以写为：

f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*})

$f(x) = sign(\sum_{i = 1}^N\alpha_i^* y_i(x\cdot x_i) + b^*)$ 由上式，以及

b^{*}

$b^*$ 的表达式我们可以知道， 分离超平面与分类决策函数都是只和输入x和其内积有关。
于是，对于线性可分数据集，我们可以首先求对偶问题的解

α^{*}

$\alpha^*$ ,再利用

ω^{*}, b^{*}

$\omega^*,b^*$ 和

α^{*}

$\alpha^*$ 的关系，求原始问题的解

ω^{*}, b^{*}

$\omega^*,b^*$ ,从而得到分离超平面和觉得函数。
这就是 线性可分支持向量机的对偶学习算法，也是其基本算法。

上述过程作为算法描述如下：
1. 构造求解约束最优化问题：

min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} \geq 0, i = 1, 2, \dots, N

α^{*} = (α_{1}^{*}, α_{2}^{*}, \dots, α_{N}^{*})^{T}

$\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T$ .
2. 由

α^{*}

$\alpha^*$ 得到

ω^{*}

$\omega^*$ ,

ω^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

$\omega^* = \sum_{i = 1}^N\alpha_i^* y_i x_i$ .选择

α^{*}

$\alpha^*$ 的一个正分量，即

α_{j}^{*} > 0

$\alpha_j^* > 0$ ,计算

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

$b^* = y_j - \sum_{i = 1}^N\alpha_i^* y_i(x_i\cdot x_j)$
3.

ω^{*}, b^{*}

$\omega^*,b^*$ 代入，求得分离超平面和分类函数。

在对偶算法中去描述支持向量，就是对应于数据中 $\alpha_i^* > 0$ 的实例点。这其实与前面我们定义的支持向量是等价的。

以上就是针对线性可分数据集的对偶算法及推导。（看来多看几遍还是有用的，现在又多明白了一些·····）