支持向量机学习笔记(二):线性支持向量机

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_37334135/article/details/85929529

在前面已经讲了线性可分支持向量机,是基于训练集是线性可分的假设下,但是现实生活中往往数据集不是可分的,会存在着噪音或异常值,看下面的图。

补充:个人习惯,接下来会将凸二次规划模型称为支持向量机模型,因为支持向量机是通过求解凸二次规划模型最终得到分离超平面。另外分离超平面 w x + b = 0 wx+b=0 也可以写成 ( w , b ) (w,b) ,因为是由这两个参数决定的。

在这里插入图片描述

左边的图是线性可分的,实线为求得的分离超平面。但是由于出现了左上方的一个负例O,即 y = 1 y=-1 导致原来的超平面不能正确可分,如果要完全正确分类那么就得使用右边图的那条实线,但是这条线太极端了,最大间隔还是那么小,这样对未来数据的预测恐怕没那么友好了,其实这种情况我们应该忽略掉那个多余的噪音,分离超平面仍然使用左边的那个。

先给出线性可分支持向量机模型

min w , b 1 2 w 2 \min\limits_{w,b} \frac{1}{2}||w||^2
s . t . y i ( w x i + b ) 1 i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)\geq 1, \qquad i=1,2,\dots N

对于上面的问题也就是某些样本点不能满足原先的线性可分支持向量机模型的约束条件,为了解决这个问题,约束条件中引入松弛变量 ξ i 0 \xi_i\geq0 ,也就是说不需要所有点的函数间隔都大于1,比如可以大于等于0.5,甚至是大于等于-0.5这种,此时目标函数则需要加入惩罚项(正则化项),得到的线性支持向量机模型(凸二次规划模型)如下:

min w , b 1 2 w 2 + C i = 1 N ξ i \min\limits_{w,b} \frac{1}{2}||w||^2+C\sum\limits_{i=1}^{N}\xi_i
s . t . y i ( w x i + b ) 1 ξ i i = 1 , 2 , N s.t. \qquad y_i(w\cdot x_i+b)\geq 1-\xi_i, \qquad i=1,2,\dots N

ξ i 0 , i = 1 , 2 , . . . , N \qquad \qquad \xi_i\geq 0,i=1,2,...,N

其中 C C 称为惩罚参数,由具体问题决定,C大则对误分类的惩罚力度大,C小则对误分类的惩罚力度小,最小化目标函数两层含义:使 1 2 w 2 \frac{1}{2}||w||^2 尽量小,即间隔尽量大(参考最最初的模型),使 C i = 1 N ξ i C\sum\limits_{i=1}^{N}\xi_i 尽量小,使得误分类个数也比较少。

通过求解以上凸二次规划问题得到分离超平面 w x + b = 0 wx+b=0 称为线性支持向量机

关于如何求解,和线性可分支持向量机中的凸二次规划模型一样去求解。即,写出拉格朗日函数,对 w , b , ξ i w,b,\xi_i 求偏导,转换为对偶问题,使用SMO算法求出对偶问题的解 α = ( α 1 , α 2 , . . . , α N ) T \alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T ,从而得到分离超平面 ( w , b ) (w^*,b^*)

写出拉格朗日函数,对 w , b , ξ i w,b,\xi_i 求偏导

L ( w , b , ξ , α , β ) = 1 2 w 2 + C i = 1 N ξ i i = 1 N α i ( y i ( w x i + b ) 1 + ξ i ) i = 1 N β i ξ i L(w,b,\xi,\alpha,\beta)=\frac{1}{2}||w||^2+C\sum\limits_{i=1}^{N}\xi_i-\sum\limits_{i=1}^{N}\alpha_i(y_i(w\cdot x_i+b)-1+\xi_i)-\sum\limits_{i=1}^{N}\beta_i\xi_i

原问题是拉格朗日函数的极小极大化: min w , b , ξ max α , β L ( w , b , ξ , α , β ) \min\limits_{w,b,\xi}\max \limits_{\alpha,\beta}L(w,b,\xi,\alpha,\beta) ,转换为对偶问题则是极大极小化: max α , β min w , b , ξ L ( w , b , ξ , α , β ) \max\limits_{\alpha,\beta}\min \limits_{w,b,\xi}L(w,b,\xi,\alpha,\beta)

求解拉格朗日的极小值,求导,令导数为0即可
L ( w , b , ξ , α , β ) w = w i = 1 N α i y i x i = 0 \frac{\partial L(w,b,\xi,\alpha,\beta)}{\partial w}=w-\sum\limits_{i=1}^{N}\alpha_iy_ix_i=0

= > w = i = 1 N α i y i x i =>w=\sum\limits_{i=1}^{N}\alpha_iy_ix_i

L ( w , b , ξ , α , β ) b = i = 1 N α i y i = 0 \frac{\partial L(w,b,\xi,\alpha,\beta)}{\partial b}=\sum\limits_{i=1}^{N}\alpha_iy_i=0

L ( w , b , ξ , α , β ) ξ i = C α i β i = 0 \frac{\partial L(w,b,\xi,\alpha,\beta)}{\partial \xi_i}=C-\alpha_i-\beta_i=0

带入到拉格朗日函数中得到

L ( w , b , ξ , α , β ) = 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i + C i = 1 N ξ i i = 1 N α i ξ i i = 1 N β i ξ i = 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i L(w,b,\xi,\alpha,\beta)=-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i+C\sum\limits_{i=1}^{N}\xi_i-\sum\limits_{i=1}^{N}\alpha_i\xi_i-\sum\limits_{i=1}^{N}\beta_i\xi_i\\=-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i

那么对偶问题就变成了

max α , β 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i \max\limits_{\alpha,\beta}-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i

s . t . i = 1 N α i y i = 0 ( 1 ) s.t.\qquad \sum\limits_{i=1}^{N}\alpha_iy_i=0\qquad (1)

C α i β i = 0 ( 2 ) \qquad C-\alpha_i-\beta_i=0\qquad (2)

α i 0 ( 3 ) \qquad \alpha_i\geq 0\qquad (3)
β i 0 , i = 1 , 2 , . . . , N ( 4 ) \qquad \beta_i\geq0,i=1,2,...,N\qquad (4)

约束条件有点繁琐,简化一下,根据(2)和(4)消掉 β i \beta_i 得到 C α i 0 C-\alpha_i\geq0 ,再与(3)式写在一起最终得到得到 0 α i C 0\leq\alpha_i\leq C ,最后得到的对偶模型如下:

max α , β 1 2 i = 1 N j = 1 N α i α j y i y j < x i , x j > + i = 1 N α i \max\limits_{\alpha,\beta}-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum\limits_{i=1}^{N}\alpha_i

s . t . i = 1 N α i y i = 0 ( 5 ) s.t.\qquad \sum\limits_{i=1}^{N}\alpha_iy_i=0\qquad (5)

0 α i C \qquad \qquad0\leq\alpha_i\leq C

所以最后我们要求的就是这么一个对偶模型,至于怎么求,使用SMO算法,只看书有点伤脑子,后面讲到非线性支持向量机会写到,现在就假设我们已经求得了参数 α = ( α 1 , α 2 , . . . , α N ) T \alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T ,那么就可以求得参数 w , b w^*,b^* 了,具体的,需要使用KKT条件。参考 线性可分支持向量机。一下只给出结果

w = i = 1 N α i y i x i w^*= \sum\limits_{i=1}^{N}\alpha_i^*y_ix_i

若存在一个 0 α j C 0\leq \alpha_j^*\leq C ,那么得到 b b^* 如下:

b = y j i = 1 N α i y i < x i , x j > b^*=y_j-\sum\limits_{i=1}^{N}\alpha_i^*y_i<x_i,x_j>

从而就得到了分离超平面: w x + b = 0 w^*x+b^*=0

猜你喜欢

转载自blog.csdn.net/qq_37334135/article/details/85929529
今日推荐