机器学习(六):支持向量机(SVM)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/eeeee123456/article/details/80108096

引言:
    支持向量机(support vector machines,SVM)是一种二值分类模型。分类学习最基本的想法就是基于训练集在样本空间中找到一个分隔超平面(separating hyperplane),将不同类别的样本分开。但能将训练样本分开的分隔面可能有很多,我们应该努力去找哪一个呢?直观上看,应该去找位于两类训练样本‘正中间’的分隔面,即图1中的红线。
线性可分支持向量机

图1  线性可分支持向量机

    如何寻找这条红线?我们希望找到离分隔面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离称为间隔(margin)。我们要做的就是为红线设一线性方程,用点到线的距离公式计算间隔,求出能使间隔最大化的线性方程即可求出分隔超平面。
    由于寻找分隔超平面就是寻找能使间隔最大化的函数的值,介绍理论知识部分会用到求函数极值的许多数学知识,均在‘数学预备知识’中介绍,此部分只给出结论,不予证明,有此数学基础可跳过。另外,现实中很多数据并不像图1那样清晰可分,更多时候是如图2或图3所示,它们分别对应支持向量机中由简至繁的模型:线性可分支持向量机、线性支持向量机、非线性支持向量机。
这里写图片描述
图2  线性支持向量机
这里写图片描述
图3  非线性支持向量机


一、数学预备知识

无约束条件下求函数极值

1.函数极值必要条件

设函数 z = f ( x , y ) 在点 ( x 0 , y 0 ) 具有偏导数,且在点 ( x 0 , y 0 ) 处有极值,则有

f x ( x 0 , y 0 ) = 0
f y ( x 0 , y 0 ) = 0
以上关于二元函数的概念,可推广到 n 元函数。
例1  某厂要用钢板做成一个体积为 2 m 3 的长方体有盖水箱,问当长、宽、高各取怎样的尺寸时,才能使用料最省?
解:
设水箱的长、宽各为 x y ,则其高应为 2 x y ,此水箱所用材料的面积
A = 2 ( x y + x 2 x y + y 2 x y ) = 2 ( x y + 2 y + 2 x )                     x > 0 , y > 0
下面求使上述函数取得最小值的点(x,y),求其对x、y的一阶偏导数得
A x = 2 ( y 2 x 2 ) = 0
A y = 2 ( x 2 y 2 ) = 0
解得 x = 2 3 y = 2 3
根据题意可知,水箱所用材料面积的最小值一定存在,并在开区域 D = { ( x , y ) | x > 0 , y > 0 } 内取得,又知函数在 D 内只有唯一的驻点 ( 2 3 , 2 3 ) ,因此可判定,当长、宽、高各取 2 3 2 3 2 x y = 2 3 时,使用料最省。

求等式约束条件下函数极值,可用拉格朗日乘子法求解

2.拉格朗日乘子法

要找函数 z = f ( x , y ) 在约束条件

s . t .     φ ( x , y ) = 0                             ( 1 )
下的可能极值点,可以先作拉格朗日函数
L ( x , y , λ ) = f ( x , y ) + λ φ ( x , y )
其中 λ 为参数,求其对 x y 的一阶偏导数,并使之为零,然后与方程(1)联立起来:
f x ( x , y ) + λ φ x ( x , y ) = 0
f y ( x , y ) + λ φ y ( x , y ) = 0
φ ( x , y ) = 0
由这方程组解出 x y λ ,这样得到的 ( x , y ) 就是函数 f ( x , y ) 在附加条件 φ ( x , y ) = 0 下的可能极值点。
λ 称为拉格朗日乘子。
这方法还可以推广到自变量多于两个而条件多于一个的情形。
例如要求函数 u = f ( x , y , z , t ) 在约束条件
s . t .     φ 1 ( x , y , z , t ) = 0 , φ 2 ( x , y , z , t ) = 0                           ( 2 )
下的可能极值点,可以先作拉格朗日函数
L ( x , y , z , t , λ 1 , λ 2 ) = f ( x , y , z , t ) + λ 1 φ 1 ( x , y , z , t ) + λ 2 φ 2 ( x , y , z , t )
其中 λ 1 λ 2 均为参数,求其对 x y 的一阶偏导数,并使之为零,然后与(2)中2个方程联立起来求解,这样得出的 ( x , y , z , t ) 就是函数 f ( x , y , z , t ) 在附加条件(2)下的可能极值点。
至于如何确定所求得的点是否为极值点,在实际问题中往往可根据问题本身的性质来判定。
例2  求表面积为 a 2 体积为最大的长方体的体积。
解:
设长方体的三棱长为 x , y , z ,则问题就是在条件 φ ( x , y , z ) = 2 x y + 2 x z + 2 y z a 2 = 0 ,求函数 V = x y z   ( x > 0 , y > 0 , z > 0 ) 的最大值。作拉格朗日函数
L ( x , y , z , λ ) = x y z + λ ( 2 x y + 2 x z + 2 y z a 2 )
求其对 x , y , z 的偏导数,并使之为零,得到
y z + 2 λ ( y + z ) = 0
x z + 2 λ ( x + z ) = 0
x y + 2 λ ( x + y ) = 0
再与约束条件 φ ( x , y , z ) 联立求解,得 x = y = z = 6 6 a ,这是唯一可能的极值点,因为由问题本身可知最大值一定存在,所以最大值就在这个可能的极值点处取得。
固表面积为 a 2 体积为最大的长方体的体积为 x y z = 6 36 a 3

求不等式约束条件下函数极值,可用K-T条件求解

3.库恩-塔克条件(K-T条件)

定义: 线性规划的一般形式
这里写图片描述
X 是非线性规划(4)式的极小点,且 X 点的所有起作用约束的梯度线性无关,则存在向量 T = ( λ 1 , λ 2 , , λ n ) T ,使下述条件成立:
这里写图片描述
条件(5)式常简称为K-T条件,满足这个条件的点 X 称为库恩-塔克点(或K-T点)。
为了得出非线性规划(3)式的库恩-塔克条件,我们用
这里写图片描述
代替约束条件 h i ( X ) = 0 ,这样即可得出(5)求解。
上式中, λ 1 , λ 2 , . . . , λ n 称为广义拉格朗日(Lagrange)乘子。
例3  用K-T条件解下述非线性规划问题

min     f ( x ) = ( x 3 ) 2
s . t .     0 x 5
解:
先将该非线性规划问题写成以下形式
                                  min     f ( x ) = ( x 3 ) 2
s . t .     g 1 ( x ) = x 0
                              g 2 ( x ) = 5 x 0
写出其目标函数和约束函数的梯度:
f ( x ) = 2 ( x 3 )
g 1 ( x ) = 1 , g 2 ( x ) = 1
对第一个和第二个约束条件分别引入广义拉格朗日乘子 λ 1 λ 2 ,则可写出该问题的K-T条件如下:
2 ( x 3 ) λ 1 + λ 2 = 0
λ 1 x = 0
λ 2 ( 5 x ) = 0
λ 1 , λ 2 0
解得 λ 1 = 0 λ 2 = 0 x = 3
固函数在约束条件下的最小值为 f ( 3 ) = 0

例4  写出下述非线性规划问题的K-T条件
min     f ( x 1 , x 2 ) = ( x 1 3 ) 2 + ( x 2 2 ) 2
s . t .     4 x 1 x 2 0
x 1 , x 2 0
解:
先将该非线性规划问题写成以下形式
min     f ( x 1 , x 2 ) = ( x 1 3 ) 2 + ( x 2 2 ) 2
            s . t .     g 1 ( x 1 , x 2 ) = 4 x 1 x 2 0
g 2 ( x 1 , x 2 ) = x 1 0
g 3 ( x 1 , x 2 ) = x 2 0
写出其目标函数和约束函数的梯度:
f ( x 1 , x 2 ) = ( 2 x 1 6 , 2 x 2 4 ) T
g 1 ( x 1 , x 2 ) = ( 1 , 1 ) T , g 2 ( x 1 , x 2 ) = ( 1 , 0 ) T , g 3 ( x 1 , x 2 ) = ( 0 , 1 ) T
对三个约束条件分别引入广义拉格朗日乘子 λ 1 λ 2 λ 3 ,则可写出该问题的K-T条件如下:
( 2 x 1 6 , 2 x 2 4 ) T λ 1 ( 1 , 1 ) T λ 2 ( 1 , 0 ) T λ 3 ( 0 , 1 ) T = 0
分解为:
2 x 1 6 + λ 1 λ 2 = 0
2 x 2 4 + λ 1 λ 3 = 0
λ 1 ( 4 x 1 x 2 ) = 0
λ 2 x 1 = 0
λ 3 x 2 = 0
λ 1 , λ 2 , λ 3 0

求不等式约束条件下函数极值,若原始问题过于复杂,可转换成对偶问题

4.拉格朗日对偶问题


1)原始问题
假设 f ( x ) c i ( x ) h j ( x ) 是定义在 R n 上的连续可微函数,考虑约束条件
这里写图片描述
称此约束最优化问题为原始最优化问题或原始问题。
作广义拉格朗日函数

L ( x , α , β ) = f ( x ) + i = 1 k α i c i ( x ) + j = 1 l β j h j ( x )
其中 x = ( x 1 , x 2 , . . . , x n ) T R n α i β j 是拉格朗日乘子且 α i 0 。考虑 x 的函数:
θ p ( x ) = max α , β , α i 0 L ( x , α , β )
这里下标P表示原始问题,则
θ p ( x ) = max α , β , α i 0 f ( x ) + i = 1 k α i c i ( x ) + j = 1 l β j h j ( x )
因为 α i 0 c i ( x ) 0 h j ( x ) = 0 ,解得 θ P ( x ) = f ( x )
考虑极小化问题
min x θ p ( x ) = min x max α , β , α i 0 L ( x , α , β )
它是与原始最优化问题(6)等价的,即它们有相同的解。问题 min x max α , β , α i 0 L ( x , α , β ) 称为广义拉格朗日的极小极大问题。
为了方便,定义原始问题的最优值
p = min x θ p ( x )
称为原始问题的值。
2)对偶问题
θ D ( α , β ) = min x L ( x , α , β )
再考虑极大化 θ D ( α , β ) = min x L ( x , α , β ) ,即
max α , β , α i 0 θ D ( α , β ) = max α , β , α i 0 min x L ( x , α , β )
问题 max α , β , α i 0 min x L ( x , α , β ) 称为广义拉格朗日的极大极小问题。
将拉格朗日函数的极大极小问题表示为约束最优化问题:
这里写图片描述
称为原始问题的对偶问题。
为了方便,定义对偶问题的最优值
d = max α , β , α i 0 θ D ( α , β )
称为对偶问题的值。
3)原始问题与对偶问题的关系
对原始问题(6)和对偶问题(7),假设函数 f ( x ) c i ( x ) 是凸函数, h j ( x ) 是仿射函数,并且不等式约束 c i ( x ) 是严格可行的,即存在 x ,对所有 i c i ( x ) < 0 ,则存在 x α β ,使得 x 是原始问题的解, α β 是对偶问题的解,并且
p = d = L ( x , α , β )
x α β 分别是原始问题和对偶问题的解的充分必要条件是 x α β 满足K-T条件。
例5  求下列非线性规划问题的对偶问题
min     x 1 2 + x 2 2
s . t .     4 x 1 x 2 0
解:
该问题的拉格朗日函数为
L ( x , α ) = x 1 2 + x 2 2 + α ( 4 x 1 x 2 ) ,               α 0
f ( x ) = x 1 2 + x 2 2 ,其中 x = ( x 1 , x 2 ) T 。则原始问题为:
min x   f ( x ) = min x   θ P ( x ) = min x max α , α 0 L ( x , α )
对偶问题为:
max α , α 0 θ D ( α ) = max α , α 0 min x L ( x , α )
min x L ( x , α ) = min x x 1 2 + x 2 2 + α ( 4 x 1 x 2 ) ,求其对 x 1 x 2 的一阶偏导数得
L x 1 = 2 x 1 α = 0
L x 2 = 2 x 2 α = 0
解得 x 1 = α 2 x 2 = α 2 ,代入得 min x L ( x , α ) = α 2 2 + 4 α
求得对偶问题为
max α , α 0 θ D ( α ) = max α , α 0 α 2 2 + 4 α




二、线性可分支持向量机

1.基本型

给定训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x N , y N ) } y i { 1 , 1 } ,分类学习最基本的想法就是基于训练集 D 在样本空间中找到一个分隔超平面,将不同类别的样本分开。
在样本空间中,分隔超平面可通过如下线性方程来描述:

w T x + b = 0                                                                 ( 8 )
其中 w = ( w 1 , w 2 , , w n ) T 为法向量,决定了分隔面的方向, b 为位移项,决定了分隔面与原点之间的距离。样本空间中任意点x到分隔面的距离可写为
r = | w T x + b | | | w | |
证明:
考虑二维空间,则(8)可表示为 w 1 x 1 + w 2 x 2 + b = 0 ,点 ( x 1 , x 2 ) 到线的距离为
r = | w 1 x 1 + w 2 x 2 + b | w 1 2 + w 2 2
考虑三维空间,则(8)可表示为 w 1 x 1 + w 2 x 2 + w 3 x 3 + b = 0 ,点 ( x 1 , x 2 , x 3 ) 到面的距离为
r = | w 1 x 1 + w 2 x 2 + w 3 x 3 + b | w 1 2 + w 2 2 + w 3 2
以此类推,可得 n 维空间,点 ( x 1 , x 2 , , x n )到分隔面的距离为
r = | w 1 x 1 + w 2 x 2 + + w n x n + b | w 1 2 + w 2 2 + + w n 2 = | w T x + b | | | w | |

假设分隔面能将训练样本正确分类,即对于 ( x i , y i ) D ,若 y i = + 1 ,则有 w T x + b > 0 ;若 y i = 1 ,则有 w T x + b < 0 。令
这里写图片描述
如图4所示,距离分隔面最近的这几个训练样本点(位于黑线上的点)使式(9)的等号成立,它们被称为“支持向量”,两个异类支持向量到超平面的距离(两条黑线的间隔)之和为
γ = 2 | | w | |
它被称为间隔。
证明:
假设 ξ > 0 ξ 2 = 1
y i = + 1 ,则有 w T x + b > 0 等价于 w T x + b ξ ,等号两边同时乘以 ξ ξ w T x + ξ b 1
y i = 1 ,则有 w T x + b < 0 等价于 w T x + b ξ ,等号两边同时乘以 ξ ξ w T x + ξ b 1
即若分隔面能将训练样本正确分类,则总存在缩放变换 ξ w w ξ b b 使式(9)成立。

这里写图片描述

图4

欲找到具有“最大间隔”的分隔面,也就是要找到能满足式(9)中约束的参数 w b ,使
γ 最大,即
这里写图片描述
显然为了最大化间隔,仅需要最大化 | | w | | 1 ,这等价于最小化 | | w | | 2 ,于是式(10)可重写为
这里写图片描述
这就是支持向量机的基本型。

2.对偶问题

基本型的对偶问题为:
这里写图片描述
证明:
基本型的拉格朗日函数为

L ( w , b , α ) = | | w | | 2 2 + i = 1 n α i ( 1 y i ( w T x i + b ) ) ,                     i = 1 , 2 , . . . , n
其中 α = ( α 1 , α 2 , . . . , α n ) ,设 f ( w , b ) = | | w | | 2 2 ,则原始问题为
min w , b   f ( w , b ) = min w , b   θ P ( w , b ) = min w , b max α , α 0 L ( w , b , α )
对偶问题为:
max α , α 0 θ D ( α ) = max α , α 0 min w , b L ( w , b , α )
要求对偶问题,先求 m i n w , b L ( w , b , α ) ,即求 L ( w , b , α ) w b 的一阶偏导数并使之为零
L w = w i = 1 n α i y i x i = 0
L b = i = 1 n α i y i = 0
解得
w = i = 1 n α i y i x i                                     ( 13 )
0 = i = 1 n α i y i                                                 ( 14 )
将(13)代入拉格朗日函数 L ( w , b , α ) ,并利用(14)得
这里写图片描述
已知 m i n w , b L ( w , b , α ) 则可得对偶问题(12)

3.利用对偶问题求解 w b

α = ( α 1 , α 2 , . . . , α n ) T 是对偶问题(12)的解,则存在下标 j ,使得 α j > 0 ,并可按下式求得原始问题(11)的解 w b

w = i = 1 n α i y i x i                                       ( 15 )
b = y i i = 1 n α i y i x i T x j                   ( 16 )

证明:
w b α 分别是原始问题和对偶问题的解的充分必要条件是 w b α 满足K-T条件。
先将(11)式写成以下形式:
min w , b   f ( w , b ) = | | w | | 2 2
s . t .   g i ( w , b ) = y i ( w T x i + b ) 1 0 ,               i = 1 , 2 , . . . , n
写出其目标函数和约束函数的梯度:
f ( w , b ) = ( | | w | | , 0 ) T , g i ( w , b ) = ( x i y i , y i ) T
n 个约束条件分别引入广义拉格朗日乘子 α 1 , α 2 , . . . , α n ,则可写出该问题的K-T条件如下:
( | | w | | , 0 ) T i = 1 n α i ( x i y i , y i ) T = 0
将上式分解为:
| | w | | = i = 1 n α i x i y i = 0
i = 1 n α i y i = 0
α i ( y i ( w T x i + b ) 1 ) = 0
α i 0 ,                     i = 1 , 2 , . . . , n
由此解得式(15)
其中至少有一个 α j > 0 (用反证法,假设 α = 0 ,由式(15)可知 w = 0 ,而 w = 0 不是原始问题(11)的解,产生矛盾),对此 j
y j ( w x j + b ) 1 = 0 ( 17 )
注意到 y j 2 = 1 ,将(17)两边同时乘以 y j ,将式(15)代入即得式(16)

综上所述,对于给定的线性可分训练数据集,可以先求对偶问题(12)的解 α ,再利用式(15) (16)求得原始问题的解 w b ,从而得到分隔超平面的线性方程。这种算法称为线性可分支持向量机的对偶算法,是线性可分支持向量机学习的基本算法。



三、线性支持向量机

1.基本型

在前面的讨论中,我们一直假定训练样本是线性可分的,即存在一个分隔面能将不同类的样本完全划分开。然而在现实任务中,往往存在一些异常点。线性不可分意味着某些样本点 ( x i , y i ) 不能满足函数间隔大于等于1的约束条件,如图5绿色框中的两个样本点。为了解决这个问题,可以对每个样本点 ( x i , y i ) 引进一个松弛变量 ξ i 0 ,使函数间隔加上松弛变量大于等于1,这样,约束条件变为

y i ( w T x i + b ) + ξ i 1
目标函数由原来的 m i n w , b | | w | | 2 2 变成
min w , b , ξ   | | w | | 2 2 + C i = 1 n ξ i                               ( 18 )
这里 C > 0 称为惩罚参数,一般由应用问题决定, C 值大时对误分类的惩罚增大, C 值小时对误分类的惩罚减小。最小化目标函数(18)包含两层含义:使 | | w | | 2 2 尽量小即间隔尽量大,同时使误分类点的个数尽量小。至此,线性支持向量机基本型如下:
这里写图片描述
这里写图片描述

图5

2.对偶问题

基本型的对偶问题为:
这里写图片描述
证明:
基本型的拉格朗日函数为

L ( w , b , ξ , α , μ ) = | | w | | 2 2 + C i = 1 n ξ i + i = 1 n α i ( 1 y i ( w T x i + b ) ξ ) i = 1 n μ i ξ i
其中 α i 0 μ i 0 ,设 f ( w , b , ξ ) = | | w | | 2 2 + C i = 1 n ξ i ,则原始问题为
min w , b , ξ   f ( w , b , ξ ) = min w , b , ξ   θ P ( w , b , ξ ) = min w , b , ξ   max α , μ L ( w , b , ξ , α , μ )
对偶问题为:
max α , μ θ D ( α , μ ) = max α , μ min w , b , ξ L ( w , b , ξ , α , μ )
min w , b , ξ L ( w , b , ξ , α , μ ) ,求 L ( w , b , ξ , α , μ ) w b ξ 的一阶偏导数得
L w = w i = 1 n α i x i y i = 0
L b = i = 1 n α i y i = 0
L ξ = C α i μ i = 0
解得
w = i = 1 n α i x i y i                                       ( 21 )
i = 1 n α i y i = 0                                                 ( 22 )
C α i μ i = 0                                     ( 23 )
将(21)代入 min w , b , ξ L ( w , b , ξ , α , μ ) ,并利用(22)(23)求得对偶问题
max α , μ i = 1 n α i 1 2 i = 1 n j = 1 n α i α j y i y j x i T x j
s . t .     i = 1 n α i y i = 0
C α i μ i = 0                                       ( 24 )
α i 0 ,           i = 1 , 2 , , n
μ i 0 ,           i = 1 , 2 , , n
利用等式(24)得 μ i = C α i ,即可消去 μ i ,并将(24)的约束写成
0 α i C
从而得到最终的对偶问题(20)

3.利用对偶问题求解 w b

α = ( α 1 , α 2 , . . . , α n ) T 是对偶问题(20)的解,若存在 α 一个分量 α j ,满足 0 < α j < C ,则原始问题(19)的解 w b 可按下式求得

w = i = 1 n α i x i y i                                       ( 25 )
b = y i = i = 1 n α i y i x i T x j                                       ( 26 )
证明:
w b α 分别是原始问题和对偶问题的解的充分必要条件是 w b α 满足K-T条件。
先将式(19)写成以下形式:
min w , b , ξ   f ( w , b , ξ ) = | | w | | 2 2 + C i = 1 n ξ i
s . t .     g i ( w , b , ξ i ) = y i ( w T x i + b ) + ξ i 1 0
h i ( w , b , ξ i ) = ξ i 0
写出其目标函数和约束函数的梯度:
f ( w , b , ξ ) = ( | | w | | , 0 , C ) T
g i ( w , b , ξ i ) = ( x i y i , y i , 1 ) T , h i ( w , b , ξ i ) = ( 0 , 0 , 1 ) T
2 n 个约束条件分别引入广义拉格朗日乘子 α 1 , α 2 , . . . , α n μ 1 , μ 2 , , μ n ,则可写出该问题的K-T条件如下:
( | | w | | , 0 , C ) T i = 1 n α i ( x i y i , y i , 1 ) T = i = 1 n μ i ( 0 , 0 , 1 ) T = 0
将上式分解为:
| | w | | i = 1 n α i x i y i = 0
i = 1 n α i y i = 0
C α i μ i = 0
α i ( y i ( w T x i + b ) + ξ i 1 ) = 0 ,                 i = 1 , 2 , , n
μ i ξ i = 0 ,                 i = 1 , 2 , , n
α i 0 ,                 i = 1 , 2 , . . . , n
μ i 0 ,                 i = 1 , 2 , . . . , n
由此解得式(25)
选择一个 α j 满足 0 < α j < C ,对此有
y j ( w x j + b ) 1 = 0                         ( 27 )
注意到 y j 2 = 1 ,将(27)两边同时乘以 y j ,将式(25)代入即得式(26)

综上所述,对于给定的训练数据集,可以先求对偶问题(20)的解 α ,再利用式(25)(26)求得原始问题的解 w b ,从而得到分隔超平面的线性方程。


四、非线性支持向量机

1、非线性分类问题

    一般来说,对给定的一个训练数据集,如果能用一个超曲面将数据集正确分开,则称这个问题为非线性分类问题。
    在图3中,数据点处于一个圆中,无法用直线(线性模型)将数据正确分开,但可以用一条椭圆曲线(非线性模型)将它们正确分开。
    非线性问题往往不好求解,所以希望能用线性分类问题的方法解决,所采用的方法是进行一个非线性变换,将非线性问题变换为线性问题,通过解变换后的线性问题的方法求解原来的非线性问题。

2、核函数的定义

    设X是输入空间,又称H为特征空间(希尔伯特空间),如果存在一个从X到H的映射

φ ( x ) : X H
使得对所有z,x∈X,函数K(x,z)满足条件
K ( x , z ) = φ ( x ) · φ ( z )
则称K(x,z)为核函数,φ(x)为映射函数,式中φ(x)·φ(z)为φ(x)和φ(z)的内积。
    核技巧的想法是,在学习与预测中只定义核函数K(x,z),而不显式地定义映射函数φ。通常,直接计算K(x,z)比较容易,而通过φ(x)和φ(z)计算K(x,z)并不容易。
例6
如下图,左边椭圆方程为
w 1 ( x ( 1 ) ) 2 + w 2 ( x ( 2 ) ) 2 + b = 0
定义映射
y = φ ( x ) = ( ( x ( 1 ) ) 2 , ( x ( 2 ) ) 2 ) T
则可将椭圆变换为下图中右边的直线
w 1 y ( 1 ) + w 2 y ( 2 ) + b = 0
根据定义可得对所有z,x∈X,核函数为
K ( x , z ) = φ ( x ) · φ ( z ) = ( x ( 1 ) ) 2 ( z ( 1 ) ) 2 + ( x ( 2 ) ) 2 ( z ( 2 ) ) 2

这里写图片描述

3、核技巧在支持向量机中的应用

    我们注意到在线性支持向量机的对偶问题中,无论是目标函数还是决策函数都只涉及输入实例与实例之间的内积。在对偶问题(20)的目标函数中的内积 x i T x j 可以用核函数 K ( x i , x j ) = x i T x j 来代替。

4、常用核函数

这里写图片描述


五、序列最小最优化(Sequential Minimal Optimization,SMO)算法

    如何求解式(20)的解α*呢?人们通过利用问题本身的特性,提出了很多高效算法,SMO就是其中一个著名的代表,这种算法1998年由Platt提出。
    将对偶问题(20)的目标函数求极大转换为求极小,即可得到SMO算法要解的如下问题:
这里写图片描述
其中 K ( x i , x j ) = x i T x j ,在这个问题中,变量是拉格朗日乘子,一个变量 α i 对应一个样本点 ( x i , y i ) ,变量的总数等于训练样本容量 N

1.SMO算法思路

    SMO是一种启发式算法,该算法并不直接求解对偶问题,而是从K-T条件入手,如果所有变量的解 α 都满足此最优化问题的K-T条件,那么这个最优化问题的解就得到了,因为K-T条件是该最优化问题的充分必要条件。具体做法如下:
    首先,初始化一个 α ,此 α 满足对偶问题的约束条件(29)(30),若 α 也刚好满足K-T条件,得解。然而,很多时候我们需要不断优化 α ,直到 α 即满足(29)(30)也满足K-T条件,以此来求得最优解。
    如何优化 α 呢?
    先选择两个待优化的变量 α i o l d α j o l d (其中一个是违反K-T条件最严重的,另一个由约束条件自动确定),其他变量固定,从而构造一个新的二次规划问题,问题就变成简单的求二次函数极值。我们不太可能求解一次就让优化后的 α n e w 满足K-T条件,但是关于优化后的 α i n e w α j n e w 应该更接近原始问题的解,因为这会使得原始二次规划问题的目标函数值变得更小。
    如此,SMO算法将原问题不断分解为子问题并对子问题求解,进而达到求解原问题的目的。

2.构造两个变量的二次规划问题

不失一般性,假设选择的两个变量是 α 1 α 2 ,其他变量 α i i = 3 , 4 , , n )是固定的。于是(28)-(30)的子问题可以写成:
这里写图片描述
其中 K i j = K ( x i , x j ) i , j = 1 , 2 , , n ξ 是常数。

3.两个变量二次规划问题的求解方法

假设问题的初始解为 α i o l d α j o l d ,最优解为 α i n e w α j n e w ,并且假设未经剪辑(忽略约束条件(33))时 α 2 的最优解为 α 2 n e w , u n c
为了叙述简单,记

g ( x ) = j = 1 n α j y j K ( x , x j ) + b
E i = g ( x i ) y i = ( j = 1 n α i y i K ( x i , x j ) + b ) y i ,           i = 1 , 2           ( 34 )
i = 1 , 2 时, E i 为函数 g ( x ) 对输入 x i 的预测值与真实输出 y i 之差。
α 2 n e w , u n c = α 2 o l d + y 2 ( E 1 E 2 ) K 11 + K 22 2 K 12                     ( 35 )
α 2 n e w
这里写图片描述
其中当 y 1 y 2 异号
L = m a x ( 0 , α 2 o l d α 1 o l d ) H = m i n ( C , C + α 2 o l d α 1 o l d )
y 1 y 2 同号
L = m a x ( 0 , α 2 o l d + α 1 o l d C ) H = m i n ( C , α 2 o l d + α 1 o l d )
α 2 n e w 求得 α 1 n e w
α 1 n e w = α 1 o l d + y 1 y 2 ( α 2 o l d α 2 n e w )                             ( 36 )
证明:
①求未经剪辑(忽略约束条件(33))时 α 2 的最优解 α 2 n e w , u n c
引进记号
v i = j = 3 n α j y j K ( x i , x j ) = g ( x i ) j = 1 2 α j y j K ( x i , x j ) + b b
目标函数可写成
W ( α 1 , α 2 ) = 1 2 K 11 α 1 2 + 1 2 K 22 α 2 2 + y 1 y 2 K 12 α 1 α 2 ( α 1 + α + 2 ) + y 1 v 1 α 1 + y 2 v 2 α 2
α 1 y 1 = ξ α 2 y 2 ,等式两边同时乘以 y 1 ,由 y i 2 = 1 可将 α 1 表示为
α 1 = ( ξ α 2 y 2 ) y 1
代入式(31),得到只有α2的函数:
这里写图片描述
对α2求导数得
这里写图片描述
令其为0,得到
这里写图片描述
ξ = α 1 o l d y 1 + α 2 o l d y 2 代入,得到
这里写图片描述
解得
α 2 n e w , u n c = α 2 o l d + y 2 ( E 1 E 2 K 11 + K 22 2 K 12

②求经剪辑(考虑约束条件(33)) α 2 n e w 的取值范围
假设取值范围为
L α 2 n e w H
考虑约束条件 0 α i C , i = 1 , 2 α 2 的最优解,首先分析约束条件
α 1 y 1 + α 2 y 2 = i = 3 n y i α i = ξ
α 1 当做自变量, α 2 为因变量,则上式变成
α 2 = y 1 y 2 α 1 + y 2 ξ                                             ( 37 )
y 1 y 2 异号,令 k = y 2 ξ ,则式(37)为直线方程 α 2 = α 1 + k ,图像如图6。
A线为 k > 0 时, α 2 n e w 的最大值为 C ,最小值为 k = α 2 o l d α 1 o l d
B线为 k < 0 时, α 2 n e w 的最大值为 C + k = C + α 2 o l d α 1 o l d ,最小值为0;
综上, α 2 n e w 需满足( α 2 的取值即要在直线上,又要在方框内):
m a x ( 0 , α 2 o l d α 1 o l d ) α 2 n e w m i n ( C , C + α 2 o l d α 1 o l d )
L = m a x ( 0 , α 2 o l d α 1 o l d ) H = m i n ( C , C + α 2 o l d α 1 o l d )

这里写图片描述

图6

y 1 y 2 同号,令 k = y 2 ξ ,则式(37)为直线方程 α 2 = α 1 + k ,图像如图7。
A线为 k > C 时, α 2 n e w 的最大值为 C ,最小值为 C k = α 2 o l d + α 1 o l d C
B线为 k < C 时, α 2 n e w 的最大值为 k = α 2 o l d + α 1 o l d ,最小值为0;
综上, α 2 n e w 需满足(α2的取值即要在直线上,又要在方框内):
m a x ( 0 , α 2 o l d + α 1 o l d C ) α 2 n e w m i n ( C , α 2 o l d + α 1 o l d )
L = m a x ( 0 , α 2 o l d + α 1 o l d C ) H = m i n ( C , α 2 o l d + α 1 o l d )
这里写图片描述
图7

α 2 n e w 最终解
α 2 n e w 需满足 α 2 n e w = α 2 n e w , u n c ,又需满足 L α 2 n e w H ,综上可得:
这里写图片描述
④解 α 1 n e w
由式(32)得
α 1 o l d y 1 + α 2 o l d y 2 = ξ = α 1 n e w y 1 + α 2 n e w y 2
上式解得
α 1 n e w = α 1 o l d + y 1 y 2 ( α 2 o l d α 2 n e w )

4.两个变量( α 1 o l d α 2 o l d )的选择方法

①第1个变量的选择
SMO称选择第1个变量的过程为外层循环,外层循环在训练样本中选取违反K-T条件最严重的样本点,并将其对应的变量作为第1个变量,具体地,检验训练样本点(xi,yi)是否满足K-T条件,即
这里写图片描述
证明:
在“线性支持向量机”利用对偶问题求w和b那一部分,我们求得如下K-T条件为:
这里写图片描述
g ( x i ) 代入式(42),则式(42)可写成 α i ( y i g ( x i ) + ξ i 1 ) = 0

这里写图片描述
②第2个变量的选择
    SMO称选择第2个变量的过程为内层循环。假设在外层循环中已经找到第1个变量 α 1 o l d ,现在要在内层循环中找第2个变量 α 2 o l d ,第2个变量的选择标准是希望能使 α 2 有足够大的变化。
    由式(35)可知, α 2 n e w 是依赖于 | E 1 E 2 | 的,为了加快计算速度,一种简单的做法是选择 α 2 ,使其对应的 | E 1 E 2 | 最大。因为 α 1 o l d 已定, E 1 也确定了。如果 E 1 为正,选择最小的 E i 作为 E 2 ;如果 E 1 为负,选择最大的 E i 作为 E 2 。为了节省计算时间,将所有 E i 值保存在一个列表中。
    在特殊情况下,如果内层循环通过以上方法选择的 α 2 n e w 不能使目标函数有足够的下降,那么采用以下启发式规则继续选择 α 2 n e w 。遍历在间隔边界上的支持向量点,依次将其对应的变量作为 α 2 n e w 试用,直到目标函数有足够的下降。若找不到合适的 α 2 n e w ,那么遍历训练数据集;若仍找不到合适的 α 2 n e w ,则放弃第1个 α 1 o l d ,再通过外层循环寻求另外的 α 1 o l d

5.计算b和差值 E i

在每次完成两个变量的优化后,都要重新计算 b 值,因为 b 值关系到下一次优化时 E i 的计算。 b n e w 值的选择是使 α 1 n e w α 2 n e w 满足K-T条件。
0 < α 1 n e w < C

b 1 n e w = E 1 y 1 K 11 ( α 1 n e w α 1 o l d ) y 2 K 21 ( α 2 n e w α 2 o l d ) + b o l d
0 < α 2 n e w < C
b 2 n e w = E 2 y 1 K 12 ( α 1 n e w α 1 o l d ) y 2 K 22 ( α 2 n e w α 2 o l d ) + b o l d

如果 α 1 n e w α 2 n e w 同时满足条件 0 < α i n e w < C i = 1 , 2 ,那么
b n e w = b 1 n e w = b 2 n e w
如果 α 1 n e w α 2 n e w 其中一个满足 0 < α i n e w < C ,另一个不满足 0 < α i n e w < C ,这里假设 α 2 n e w 满足 0 < α 2 n e w < C ,另一个即 α 1 n e w 是0或者C,那么
b n e w = b 2 n e w
如果 α 1 n e w α 2 n e w 是0或者C,那么 b 1 n e w b 2 n e w 以及它们之间的数都符合K-T条件,这时选择它们的中点作为 b n e w ,那么
b n e w = b 1 n e w + b 2 n e w 2

证明过程,在本地写好,然而太长了懒得搬过来,就截图吧
在每次完成两个变量的优化之后,还必须更新对应的 E i 值,并将它们保存在列表中。 E i 值的更新要用到 b n e w 值,以及所有支持向量对应的 α j ,得
E i n e w = S α j y j K ( x i , x j ) + b n e w y i
其中, S 是所有支持向量 x j 的集合。

6.SMO算法

输入:训练数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x N , y N ) } y i 1 , 1 i = 1 , 2 , , N ,精度 ε ,惩罚参数 C
输出:近似解 α
①取初始值 α ( 0 ) = 0 ,令 k = 0
②选取优化变量 α 1 ( k ) α 2 ( k ) ,解析求解两个变量的最优化问题,求得最优解 α 1 ( k + 1 ) α 2 ( k + 1 ) ,更新 α α ( k + 1 )
③若在精度ε范围内满足停机条件
这里写图片描述
则转④;否则令 k = k + 1 ,转②
④取 α = α ( k + 1 )



五、SMO代码实现

以下代码来自Peter Harrington《Machine Learing in Action》。
通过一个外循环来选择第一个alpha值,并且其选择过程会在两种方式之间进行交替:一种方式是在所有数据集上进行单遍扫描,另一种方式是在alpha值大于0和小于C的数据集上进行单遍扫描。第二个alpha值的选择与上述第二个变量基本一致。停机条件为无alpha可优化或到达最大循环次数。
主函数smoP需要五个参数:数据集、类别标签、常数C、精度ε和取消前最大的循环次数。
代码如下(保存为smo.py):

# -- coding: utf-8 --
from numpy import *

def loadDataSet(fileName):
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat,labelMat

def selectJrand(i,m):
    j=i
    while (j==i):
        j = int(random.uniform(0,m))
    return j

def clipAlpha(aj,H,L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj

class optStruct:
    def __init__(self,dataMatIn, classLabels, C, toler):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m,1))) #初始化alphas为0
        self.b = 0                           #初始化b为0
        self.eCache = mat(zeros((self.m,2))) #初始化Ek为0

def calcEk(oS, k):
    fXk = float(multiply(oS.alphas,oS.labelMat).T*(oS.X*oS.X[k,:].T)) + oS.b
    Ek = fXk - float(oS.labelMat[k])         #对应式(34)Ei=g(xi)+b-yi
    return Ek

def selectJ(i, oS, Ei):    #返回使|E1-E2|值最大的E2及E2的位置j
    maxK = -1
    maxDeltaE = 0
    Ej = 0
    oS.eCache[i] = [1,Ei]  #更新位置i的的E1,用1标示该值为更新过的Ei
    validEcacheList = nonzero(oS.eCache[:,0].A)[0] #返回eCache数组第一列不为0的值,即更新过的Ei的索引
    if (len(validEcacheList)) > 1:     #如果eCache的Ek个数大于1,返回使|E1-E2|值最大的E2及E2的位置j
        for k in validEcacheList:
            if k == i: continue
            Ek = calcEk(oS, k)
            deltaE = abs(Ei - Ek)
            if (deltaE > maxDeltaE):
                maxK = k; maxDeltaE = deltaE; Ej = Ek
        return maxK, Ej
    else:                  #如果eCache的Ek都是没有更新过的,则随机选择一个与E1不同位置的E2并返回E2的位置j
        j = selectJrand(i, oS.m)
        Ej = calcEk(oS, j)
    return j, Ej

def updateEk(oS, k):
    Ek = calcEk(oS, k)
    oS.eCache[k] = [1,Ek]

def innerL(i, oS):
    Ei = calcEk(oS, i) #计算E1
    if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i]*Ei > oS.tol) and (oS.alphas[i] > 0)):
    # (yiEi<0 => yig(xi)<1 and alpha<C) or (yiEi>0 => yig(xi)>1 and alpha>0) 选取违背K-T条件的alpha1
        j,Ej = selectJ(i, oS, Ei)                                   #选择smo的第二个变量
        alphaIold = oS.alphas[i].copy()                             #alpha1old
        alphaJold = oS.alphas[j].copy()                             #alpha2old
        if (oS.labelMat[i] != oS.labelMat[j]):                      #y1、y2异号
            L = max(0, oS.alphas[j] - oS.alphas[i])                 #L=max(0,alpha2old-alpha1old)
            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])       #H=min(0,C+alpha2old-alpha1old)
        else:                                                       #y1、y2同号
            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)          #L=max(0,alpha2old+alpha1old-C)
            H = min(oS.C, oS.alphas[j] + oS.alphas[i])              #H=min(0,alpha2old+alpha1old)
        if L==H: print "L==H"; return 0                                                        #异常情况,返回
        eta = 2.0 * oS.X[i,:]*oS.X[j,:].T - oS.X[i,:]*oS.X[i,:].T - oS.X[j,:]*oS.X[j,:].T #2K12-K11-K22
        if eta >= 0: print "eta>=0"; return 0                                                  #异常情况,返回
        oS.alphas[j] -= oS.labelMat[j]*(Ei - Ej)/eta                #式(35)计算alpha2new,unc
        oS.alphas[j] = clipAlpha(oS.alphas[j],H,L)                  #返回alpha2new
        updateEk(oS, j)                                             #更新E2的值
        if (abs(oS.alphas[j] - alphaJold) < 0.00001): print "j not moving enough"; return 0 #alpha2基本不变,返回
        oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j])      #式(36)求alpha1new
        updateEk(oS, i)                                             #更新E1的值
        #b1new
        b1 = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.X[i,:]*oS.X[i,:].T - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.X[i,:]*oS.X[j,:].T
        #b2new
        b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.X[i,:]*oS.X[j,:].T - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.X[j,:]*oS.X[j,:].T
        #根据b值的计算结论更新b值
        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1
        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2
        else: oS.b = (b1 + b2)/2.0
        return 1
    else: return 0

def smoP(dataMatIn, classLabels, C, toler, maxIter):
    #样本X,样本Y,惩罚参数C,精度e,最大循环次数maxIter
    oS = optStruct(mat(dataMatIn),mat(classLabels).transpose(),C,toler)
    iter = 0
    entireSet = True
    alphaPairsChanged = 0
    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
    #循环次数大于maxIter或alphaPairsChanged连续2次等于0,则退出循环
        alphaPairsChanged = 0
        if entireSet:
            for i in range(oS.m):                    #循环所有alphas,作为smo的第一个变量
                alphaPairsChanged += innerL(i,oS)    #inner函数:如果有任意一对alphas值发生改变,返回1
                print "fullSet, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged)
            iter += 1
        else:
            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
            for i in nonBoundIs:                     #循环大于0小于C的alphas,作为smo的第一个变量
                alphaPairsChanged += innerL(i,oS)
                print "non-bound, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged)
            iter += 1
        if entireSet: entireSet = False
        elif (alphaPairsChanged == 0): entireSet = True
        print "iteration number: %d" % iter
    return oS.b,oS.alphas

def calcWs(alphas,dataArr,classLabels):  #利用式(25)alphas[i]*y[i]*xi求w的值
    X = mat(dataArr)
    labelMat = mat(classLabels).transpose()
    m,n = shape(X)
    w = zeros((n,1))
    for i in range(m):
        w += multiply(alphas[i]*labelMat[i],X[i,:].T)
    return w

数据集如下(保存为textSet.txt):

3.542485    1.977398    -1
3.018896    2.556416    -1
7.551510    -1.580030   1
2.114999    -0.004466   -1
8.127113    1.274372    1
7.108772    -0.986906   1
8.610639    2.046708    1
2.326297    0.265213    -1
3.634009    1.730537    -1
0.341367    -0.894998   -1
3.125951    0.293251    -1
2.123252    -0.783563   -1
0.887835    -2.797792   -1
7.139979    -2.329896   1
1.696414    -1.212496   -1
8.117032    0.623493    1
8.497162    -0.266649   1
4.658191    3.507396    -1
8.197181    1.545132    1
1.208047    0.213100    -1
1.928486    -0.321870   -1
2.175808    -0.014527   -1
7.886608    0.461755    1
3.223038    -0.552392   -1
3.628502    2.190585    -1
7.407860    -0.121961   1
7.286357    0.251077    1
2.301095    -0.533988   -1
-0.232542   -0.547690   -1
3.457096    -0.082216   -1
3.023938    -0.057392   -1
8.015003    0.885325    1
8.991748    0.923154    1
7.916831    -1.781735   1
7.616862    -0.217958   1
2.450939    0.744967    -1
7.270337    -2.507834   1
1.749721    -0.961902   -1
1.803111    -0.176349   -1
8.804461    3.044301    1
1.231257    -0.568573   -1
2.074915    1.410550    -1
-0.743036   -1.736103   -1
3.536555    3.964960    -1
8.410143    0.025606    1
7.382988    -0.478764   1
6.960661    -0.245353   1
8.234460    0.701868    1
8.168618    -0.903835   1
1.534187    -0.622492   -1
9.229518    2.066088    1
7.886242    0.191813    1
2.893743    -1.643468   -1
1.870457    -1.040420   -1
5.286862    -2.358286   1
6.080573    0.418886    1
2.544314    1.714165    -1
6.016004    -3.753712   1
0.926310    -0.564359   -1
0.870296    -0.109952   -1
2.369345    1.375695    -1
1.363782    -0.254082   -1
7.279460    -0.189572   1
1.896005    0.515080    -1
8.102154    -0.603875   1
2.529893    0.662657    -1
1.963874    -0.365233   -1
8.132048    0.785914    1
8.245938    0.372366    1
6.543888    0.433164    1
-0.236713   -5.766721   -1
8.112593    0.295839    1
9.803425    1.495167    1
1.497407    -0.552916   -1
1.336267    -1.632889   -1
9.205805    -0.586480   1
1.966279    -1.840439   -1
8.398012    1.584918    1
7.239953    -1.764292   1
7.556201    0.241185    1
9.015509    0.345019    1
8.266085    -0.230977   1
8.545620    2.788799    1
9.295969    1.346332    1
2.404234    0.570278    -1
2.037772    0.021919    -1
1.727631    -0.453143   -1
1.979395    -0.050773   -1
8.092288    -1.372433   1
1.667645    0.239204    -1
9.854303    1.365116    1
7.921057    -1.327587   1
8.500757    1.492372    1
1.339746    -0.291183   -1
3.107511    0.758367    -1
2.609525    0.902979    -1
3.263585    1.367898    -1
2.912122    -0.202359   -1
1.731786    0.589096    -1
2.387003    1.573131    -1

运行命令如下:
这里写图片描述
通过loadDataSet函数转换数据集,运行smoP函数获取b及alphas值。
这里写图片描述
最后通过calcWs函数计算w的值。
可利用数据验证,若该值大于0属于1类,若该值小于0则属于-1类。









以上全部内容参考书籍如下:
李航《统计学习方法》
周志华《机器学习》
Peter Harrington《Machine Learing in Action》
《高等数学第六版下册(同济大学)》
《运筹学 第三版》清华大学出版社

猜你喜欢

转载自blog.csdn.net/eeeee123456/article/details/80108096