支持向量机学习笔记(一):线性可分支持向量机

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_37334135/article/details/85787766

SVM是用来做二类分类的模型,有简到难分为线性可分支持向量机(或者说硬间隔支持向量机)、线性支持向量机(软间隔支持向量机)、非线性支持向量机。下面先讲最简单的线性可分支持向量机。
以下会按顺序讲到:

  1. 线性可分支持向量机介绍
  2. 函数间隔与几何间隔
  3. 支持向量机模型推导

给出训练集:

T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} ,其中 x i x_i n n 维特征向量, y i = { + 1 , 1 } y_i=\{+1,-1\} 为类别标记, + 1 +1 表示正例, 1 -1 表示负例。假设训练数据集是线性可分的,给出线性可分支持向量机定义如下。

线性可分支持向量机:

给定线性可分数据集,通过间隔最大化或等价的求解凸二次规划问题学习得到分离超平面

w x + b = 0 wx+b=0

以及相应的决策函数

f ( x ) = s i g n ( w x + b ) f(x)=sign(wx+b)

w x + b > 0 wx+b>0 函数为 1 1 ,实例分配到正类,反之为 0 0 ,实例分配到负类。
称为线性可分支持向量机,为了方便起见以下统统用SVM来表示线性可分支持向量机。

比如我们将样本点画到了图上,如下:

在这里插入图片描述

其中X表示正例 y = + 1 y=+1 ,O表示负例 y = 1 y=-1 ,而用来将两类样本分隔的超平面 w x + b = 0 wx+b=0 (比如 x 1 + x 2 + 5 = 0 x_1+x_2+5=0, 图中的直线)可能会有无数个,SVM的目标则是选择最优的那个

如果能正确分隔的话,那么对于直线上方的点,即正例点 ( x i , y i ) (x_i,y_i) ,满足 w x i + b > 0 w\cdot x_i+b>0 ,由于是正例点那么 y i = 1 y_i=1 ,所以 y i ( w x i + b ) > 0 y_i(w\cdot x_i+b)>0 。同样的,负例点 ( x i , y i ) (x_i,y_i) 也满足 y i ( w x i + b ) > 0 y_i(w\cdot x_i+b)>0

所以,如果超平面能对两类样本进行正确分类的话那么就对于任意点 ( x i , y i ) (x_i,y_i) ,满足 y i ( w x i + b ) > 0 y_i(w\cdot x_i+b)>0 。但是这样的超平面有无数个,SVM的目标是选择最优的那个(即间隔最大的那个,具体的后面交代)。

函数间隔和几何间隔

函数间隔可以理解为点到直线(超平面 w x + b = 0 wx+b=0 )在竖直方向的距离,所以对于正例点( y i = 1 y_i=1 ),即在直线上方的点到超平面距离为 w x i + b w\cdot x_i+b ,直线下方的负例点( y i = 1 y_i=-1 )到直线的距离为 ( w x i + b ) -(w\cdot x_i+b) ,写成统一的式子则是 y i ( w x i + b ) y_i(w\cdot x_i+b)

函数间隔:

定义超平面 w x + b = 0 wx+b=0 到点 ( x i , y i ) (x_i,y_i) 的函数间隔为:

γ i = y i ( w x i + b ) \overline{\gamma}_i=y_i(w\cdot x_i+b)

定义超平面 w x + b = 0 wx+b=0 到训练集 T T 的函数间隔为:

γ = min γ i , i = 1 , 2 , . . . , N \overline{\gamma}=\min \overline{\gamma}_i,i=1,2,...,N

从定义中能够看出,对于同样的点 ( x i , y i ) (x_i,y_i) ,如果等比例增加 w , b w,b 那么函数间隔也会等比例增加,这一点在后面会很有用。

如果要上述避免这种情况,可以对 w w 进行规范化, w = 1 ||w||=1 ,从而使得间隔是确定的,这种间隔称为几何间隔。(补充: w w 为一个向量,比如 x 1 + x 2 + 3 = 0 x_1+x_2+3=0 那么 w = ( 1 , 1 ) T w=(1,1)^T ,称 w w 为法向量)

几何间隔:

定义超平面 w x + b = 0 wx+b=0 到点 ( x i , y i ) (x_i,y_i) 的几何间隔为:

γ i = y i ( w w x i + b w ) {\gamma}_i=y_i(\frac{w }{||w||}x_i+\frac{b}{||w||})

定义超平面 w x + b = 0 wx+b=0 到训练集 T T 的函数间隔为:

γ = min γ i , i = 1 , 2 , . . . , N {\gamma}=\min \overline{\gamma}_i,i=1,2,...,N

下面举个简单的例子 :

假设有超平面 x 1 + x 2 + 2 = 0 x_1+x_2+2=0 ,点 ( x , y ) = ( ( 1 , 1 ) , 1 ) (x,y)=((1,1),1) ( 1 , 1 ) (1,1) 是表示坐标轴上的点,最后一个 1 1 表示正例。那么超平面到该点的函数间隔为 1 + 1 + 2 = 4 1+1+2=4 ,几何间隔为 1 1 + 1 + 1 1 + 1 + 2 1 + 1 = 2 2 \frac{1}{\sqrt{1+1}}+\frac{1}{\sqrt{1+1}}+\frac{2}{\sqrt{1+1}}=2\sqrt{2} 。如果此时将 w , b w,b 扩大为原来的两倍,即超平面为 2 x 1 + 2 x 2 + 4 = 0 2x_1+2x_2+4=0 ,此时的函数间隔为 2 + 2 + 4 = 8 2+2+4=8 ,可以发现变为了原来的2倍。再来看几何间隔。 2 2 2 + 2 2 + 2 2 2 + 2 2 + 4 2 2 + 2 2 = 2 2 \frac{2}{\sqrt{2^2+2^2}}+\frac{2}{\sqrt{2^2+2^2}}+\frac{4}{\sqrt{2^2+2^2}}=2\sqrt{2} ,和原来的几何间隔相等。

从函数间隔与几何间隔的定义可以看出两者的关系:

γ i = γ i w \gamma_i =\frac{\overline{\gamma}_i}{||w||}

γ = γ w \gamma =\frac{\overline{\gamma}}{||w||}

前面已经说了,能对两类实例进行分割的超平面有无数个,SVM目标是选择最优的那个(区别与感知机),那么怎样的超平面是最优的呢?即间隔最大(硬间隔最大)的超平面,具体来说就是能进行正确分类的超平面中的几何间隔最大的那个超平面,即 max w , b γ \max \limits_{w,b} \gamma

直观来解释就是,这样的超平面不仅能将实例正确分开,而且能将最难分的点(距离超平面最近的点)以足够大的确信度分开(因为间隔最大嘛),这样的超平面对未来的数据具有较好的预测能力。

模型:最大间隔分离超平面

根据以上分析,我们的目标是找到几何间隔最大的超平面,那么模型的目标函数和约束条件也就得都有了,模型如下:

max w , b γ \max \limits_{w,b} \gamma

s . t . y i ( w w x i + b w ) γ i = 1 , 2 , N s.t. \qquad y_i(\frac{w}{||w||}x_i+\frac{b}{||w||})\geq\gamma, \qquad i=1,2,\dots N

考虑几何间隔与函数间隔的关系式,将几何间隔转换为函数间隔,得到:

max w , b γ w \max \limits_{w,b} \frac{\overline{\gamma}}{||w||}

s . t . y i ( w x i + b ) γ i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)\geq\overline{\gamma}, \qquad i=1,2,\dots N

考虑上面的约束条件,如果我们将 w , b w,b 都变为原来的 k k 倍,那么 γ \overline{\gamma} 也会变为原来的 k k 倍,即
s . t . y i ( k w x i + k b ) k γ i = 1 , 2 , N s.t. \qquad y_i(kw\cdot x_i+kb)\geq k \overline{\gamma}, \qquad i=1,2,\dots N
仍然与原来的约束条件一样,
也就是说同比例的改变不等号左边的 w , b w,b 与右边的 γ \overline{\gamma} 约束不变。既然这样,那么将不等号两边都除以 γ \overline{\gamma} ,变化后的 w , b w,b 仍然用 w , b w,b 表示。那么约束就成了
s . t . y i ( w x i + b ) 1 i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)\geq 1, \qquad i=1,2,\dots N
同时目标函数也就成了 max w , b 1 w \max \limits_{w,b} \frac{1}{||w||} ,带分母的求解麻烦,转换为 min w , b 1 2 w 2 \min\limits_{w,b} \frac{1}{2}||w||^2

最终得到的模型为:

min w , b 1 2 w 2 \min\limits_{w,b} \frac{1}{2}||w||^2
s . t . y i ( w x i + b ) 1 0 i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)-1\geq 0, \qquad i=1,2,\dots N

通过求解该模型得到最大间隔分离超平面 w x + b = 0 w^*x+b^*=0

求解这个模型等于是求解一个凸二次规划问题,关于什么是凸二次规划问题件《统计学习方法》如下:

在这里插入图片描述

补充:如果 f ( x ) f(x) 满足 f ( x ) = a x + b f(x)=a\cdot x+b ,则称它是仿射函数。

支持向量

为什么叫支持向量机,下面进行介绍。

支持向量:

满足模型约束条件等式成立的实例点称为支持向量(也就是距离超平面最近的点),即支持向量 ( x i , y i ) (x_i,y_i) 满足

y i ( w x i + b ) = 1 y_i(w\cdot x_i+b)=1

如果是正例点,那么就有 w x i + b = 1 w\cdot x_i+b=1

如果是负例点,那么就有 w x i + b = 1 w\cdot x_i+b=-1

画在图上如下:

在这里插入图片描述

从上到下的三条线分别为
w x + b = 1 w\cdot x+b=1
w x + b = 0 w\cdot x+b=0
w x + b = 1 w\cdot x+b=-1
两条虚线称为间隔边界,距离为 1 w \frac{1}{||w||} ,实线为分离超平面,位于两虚线正中间。
在决定分离超平面时只有支持向量起作用,而其他实例点不起作用,所以称为支持向量机。如果移动支持向量那么得到的分离超平面会改变;移动以外的点则不会改变得到的分离超平面。一般支持向量个数很少,所以支持向量机由很少的“重要”样本确定的。

学习的对偶算法

对于原始问题

min w , b 1 2 w 2 \min\limits_{w,b} \frac{1}{2}||w||^2
s . t . y i ( w x i + b ) 1 0 i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)-1\geq 0, \qquad i=1,2,\dots N

我们需要写出它的对偶形式,通过求解对偶问题的最优解从而得到原始问题的最优解。为什么使用对偶是因为对偶问题容易求解(比如原问题中,由于 i i 有N个导致约束条件也有 N N 个。),同时也是为了引出后面需要讲的核技法与非线性分类问题。

关于对偶问题,参考《统计学习方法》附录。

具体的做法是:写出拉格朗日函数,得到极小极大化问题,那么对偶问题则是极大极小问题,通过求解对偶问题的最优解得到原问题的最优解,下面就一步步来做。

1、写拉格朗日函数并求解

L ( w , b , α ) = 1 2 w 2 i = 1 N α i ( y i ( w x i + b ) 1 ) = 1 2 w 2 i = 1 N α i y i ( w x i + b ) + i = 1 N α i L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^{N}\alpha_i(y_i(w\cdot x_i+b)-1)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^{N}\alpha_iy_i(w\cdot x_i+b)+\sum\limits_{i=1}^{N}\alpha_i

需要求的是 L ( w , b , α ) L(w,b,\alpha) 的最大值,这点参考《统计学习方法》附录关于对偶问题那部分。

原问题就成了极小极大问题,即 min w , b max α L ( w , b , α ) \min \limits_{w,b}\max\limits_{\alpha}L(w,b,\alpha) ,那么对偶问题则是极大极小问题,即 max α min w , b L ( w , b , α ) \max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)

现在来求对偶问题, max α min w , b L ( w , b , α ) \max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha) 。对于 min w , b L ( w , b , α ) \min\limits_{w,b}L(w,b,\alpha) 的求解,求导令倒数为0即可。

L ( w , b , α ) w = w i = 1 N α i y i x i = 0 \frac{\partial L(w,b,\alpha)}{\partial w}=w-\sum\limits_{i=1}^{N}\alpha_iy_ix_i=0
= > w = i = 1 N α i y i x i =>w=\sum\limits_{i=1}^{N}\alpha_iy_ix_i

L ( w , b , α ) b = i = 1 N α i y i = 0 \frac{\partial L(w,b,\alpha)}{\partial b}=\sum\limits_{i=1}^{N}\alpha_iy_i=0

注意: w = ( w 1 , w 2 , . . . , w N ) T w=(w_1,w_2,...,w_N)^T ,以上应该是对 w i w_i 求导,上面是写出了通用公式。

将求解的结果带入到 L ( w , b , α ) = 1 2 w 2 i = 1 N α i y i ( w x i + b ) + i = 1 N α i L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^{N}\alpha_iy_i(w\cdot x_i+b)+\sum\limits_{i=1}^{N}\alpha_i 中。

注意: w 2 ||w||^2 为向量 w T w w^T\cdot w 即内积,那么有 w 2 = ( i = 1 N α i y i x i ) ( j = 1 N α j y j x j ) = i = 1 N j = 1 N α i α j y i y j < x i , x j > ||w||^2=(\sum\limits_{i=1}^{N}\alpha_iy_ix_i)\cdot(\sum\limits_{j=1}^{N}\alpha_jy_jx_j)=\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>
< x i , x j > <x_i,x_j> 表示这两个向量的内积,最终有:
L ( w , b , α ) = 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > i = 1 N α i y i x i j = 1 N α j y j x j b i = 1 N α i y i + i = 1 N α i = 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i L(w,b,\alpha)=\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>-\sum\limits_{i=1}^{N}\alpha_iy_ix_i\sum\limits_{j=1}^{N}\alpha_jy_jx_j-b\sum\limits_{i=1}^{N}\alpha_iy_i+\sum\limits_{i=1}^{N}\alpha_i\\=-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i

那么对偶问题 max α min w , b L ( w , b , α ) \max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha) 就变成了如下模型:

max α 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i \max\limits_{\alpha}-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i

s . t . i = 1 N α i y i = 0 s.t. \qquad \sum\limits_{i=1}^{N}\alpha_iy_i=0

α i 0 i = 1 , 2 , . . . , N \qquad \qquad \alpha_i \geq0 \qquad i=1,2,...,N

习惯上求极小问题,那么就转换为如下的最终模型。

min α 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > i = 1 N α i \min\limits_{\alpha}\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>-\sum\limits_{i=1}^{N}\alpha_i

s . t . i = 1 N α i y i = 0 s.t. \qquad \sum\limits_{i=1}^{N}\alpha_iy_i=0

α i 0 i = 1 , 2 , . . . , N \qquad \qquad \alpha_i \geq0 \qquad i=1,2,...,N

关于模型的求解,使用SMO算法,只看书恐怕会有些难懂,在后续会单独讲到。

假设已经求解出来了,即得到 α = ( α 1 , α 2 , . . . , α N ) T \alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T α \alpha 求出来后,那么分离超平面 ( w , b ) (w^*,b^*) 也就求出来了,具体的如下。

KKT条件

先讲个重要的概念,KKT条件:

在这里插入图片描述

2、对偶问题

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

有了KKT条件和得到的解 α = ( α 1 , α 2 , . . . , α N ) T \alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_N)^T ,那么就可以求解分离超平面 ( w , b ) (w^*,b^*) 。如下:

首先KKT条件成立,即:

L ( w , b , α ) w = w i = 1 N α i y i x i = 0 \frac{\partial L(w^*,b^*,\alpha^*)}{\partial w}=w^*-\sum\limits_{i=1}^{N}\alpha^*_iy_ix_i=0

L ( w , b , α ) b = i = 1 N α i y i = 0 \frac{\partial L(w^*,b^*,\alpha^*)}{\partial b}=\sum\limits_{i=1}^{N}\alpha^*_iy_i=0

α i ( 1 y i ( w x i + b ) ) = 0 \alpha^*_i(1-y_i(w^*x_i+b^*))=0

1 y i ( w x i + b ) 0 1-y_i(w^*x_i+b^*)\leq 0

α 0 \alpha^*\geq0

由第一个式子就得到了 w = i = 1 N α i y i x i w^*=\sum\limits_{i=1}^{N}\alpha^*_iy_ix_i

首先可以肯定的是存在一个 α j > 0 \alpha^*_j>0 ,如果所有的 α j = 0 \alpha^*_j=0 那么根据上面KKT条件的第一个式子就得到了 w = 0 w^*=0 这显然不对,所以得知至少存在一个 j j 使得 α j > 0 \alpha^*_j>0

根据KKT条件的第三个式子,得到 1 = y i ( w x j + b ) 1=y_i(w^*x_j+b^*) ,两把同乘 y j y_j ,得到 :
b = y j w x j = y j w x j = y j i = 1 N α i y i < x i , x j > b^*=y_j-w^*x_j=y_j-w^*x_j=y_j-\sum\limits_{i=1}^{N}\alpha_iy_i<x_i,x_j>

到这里分离超平面 ( w , b ) (w^*,b^*) ,即 w x + b = 0 w^*x+b^*=0 就求出来了,分离超平面如下:

i = 1 N α i y i < x , x i > + b = 0 \sum\limits_{i=1}^{N}\alpha^*_iy_i<x,x_i>+b^*=0

称为线性可分支持向量机的对偶形式,下面总结一下算法流程。

线性可分支持向量机学习算法

输入:线性可分数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} ,其中 x i x_i n n 维特征向量, y i = { + 1 , 1 } y_i=\{+1,-1\} 为类别标记, + 1 +1 表示正例。

输出:分离超平面以及分类决策函数

(1)、构造并求解优化模型:

min α 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > i = 1 N α i \min\limits_{\alpha}\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>-\sum\limits_{i=1}^{N}\alpha_i

s . t . i = 1 N α i y i = 0 s.t. \qquad \sum\limits_{i=1}^{N}\alpha_iy_i=0

α i 0 i = 1 , 2 , . . . , N \qquad \qquad \alpha_i \geq0 \qquad i=1,2,...,N

(2)、计算 w = i = 1 N α i y i x i w^*=\sum\limits_{i=1}^{N}\alpha^*_iy_ix_i

并选择一个 α \alpha^* 的分量, α j > 0 \alpha^*_j>0 ,计算
b = y j i = 1 N α i y i < x i , x j > b^*=y_j-\sum\limits_{i=1}^{N}\alpha_iy_i<x_i,x_j>

(3)、求得分离超平面:

w x + b = 0 w^*x+b^*=0

分类决策函数:

f ( x ) = s i g n ( w x + b ) f(x)=sign(w^*x+b^*)

猜你喜欢

转载自blog.csdn.net/qq_37334135/article/details/85787766
今日推荐