第四章 支持向量机详解

1 线性可分模式的最优超平面

考虑训练样本 ( x i , d i ) 假设由子集代表的模式是线性可分的,用于分离超平面的决策曲面方程是:

(式4.1) W T X + b = 0

其中x是输入向量,w是可调向量,b是偏置。因此可以写成:

W T X + b 0 d i = + 1

(式4.2) W T X + b < 0 d i = 1

支持向量机的目标是找到一个特殊的超平面,这个超平面分离边缘最大,在该情况下,决策曲面为最优超平面。假设 w 0 b 0 分别表示权值向量和偏置的最优值,相应的,最优超平面形式如下:
(式4.3) w 0 T + b 0 = 0

将式4.1改写,可得到判别函数:
(式4.4) g ( x ) = w 0 T + b 0

x到最优超平面的距离是一种代数度量,可以将x表达为,(理解此处需要回顾高中几何、向量相关的知识,如下图所示那样)
x = x 0 + r w 0 | | w 0 | |

这里写图片描述
其中 x 0 是x在最优超平面上的正轴投影,r是期望的代数距离。如果x在最优平面的正面,r是正值,相反,则为负值,由定义可知 g ( x p ) = 0 ,由此可得出:
(式4.5) g ( x ) = w 0 T x + b 0 = r | | w 0 | |

将超平面表示为(w,b),w为法向量,b为位移向,则样本空间到超平面(w,b)的距离可写为
(式4.6) r = | w T x + b | | | w | |

该步的解法详见( https://blog.csdn.net/alwaystry/article/details/60957096

假设超平面(w,b)能将训练样本正确分类,即 ( x i , y i ) D y i = + 1 w T x i + b > 0 , y i = 1 , w T x i + b < 0 ,令

(式4.7) { w T x i + b + 1 , y i = + 1 w T x i + b 1 , y i = 1

由式4.6和式4.5可得出:

(式4.8) r = g ( x ) | | w 0 | | = { 1 | | w 0 | | , y i = + 1 1 | | w 0 | | , y i = 1

有式4.8可得到, 两个类边缘的最优值为 ρ :
(式4.9) ρ = 2 r = 2 | | w 0 | |

由式4.9可以说明:
最大化两个类之间的边缘等价于最小权值向量w的欧几里得范数。
首先主要到训练样本{X,Y},再根据式4.7,把两个等式合并得到一个等式:
y i ( w T x i + b ) 1

据此可总结,最大化两个类之间的分类边缘,即最大化间隔,仅需最大化 | | w | | 1 ,等价于最小化 | | w | | 2 (在《神经网络与机器学习》中,此处等价于 w T w )
于是可以得到如下:
m i n 1 2 | | w | | 2

y i ( w T x i + b ) 1 , i = ( 1 , 2 , l d o t s , N )

这就是支持向量的基本型。
在《神经网络与机器学习》中采用的记录方式为:
Φ ( w ) = 1 2 w T w

(式4.11) y i ( w T x i + b ) 1 , i = ( 1 , 2 , l d o t s , N )

代价函数 Φ ( w ) 是w的凸函数
约束条件关于w是线性的。
可以使用拉格朗日乘子方法解决约束最优问题。
首先,建立拉格朗日函数
(式4.12) J ( w , b , a ) = 1 2 w T w i = 1 n a i [ d i ( y i ( w T x i + b ) 1 ) ]

a i 称作拉格朗日乘子,约束最优问题的解由 J ( w , b , a ) 的鞍点决定, J ( w , b , a ) 对w和b求微分并设置为0,得到两个最优条件:

{ 1 L ( w , b , a ) w = 0 , 2 L ( w , b , a ) b = 0

应用最优条件1到式4.11的拉格朗日函数,得到:

(式4.13) w = i = 1 N a i y i x i

同理运用最优条件2可得:
(式4.14) i = 1 N a i y i = 0

KKT条件,(此处由式4.11,4.14得到)
(式4.15) { 1 a i 0 2 y i f ( x i ) 1 0 3 a i ( y i f ( x i ) 1 ) = 0

对偶问题
像前面提到的,原问题是处理凸代价函数和线性约束的,给定这样一个约束最优化问题,可能构造另一个问题,成为对偶问题。第二问题与原问题有同样的最优值,但是这是由拉格朗日乘子提供最优解。
为了说明对偶问题是原问题的前提,首先逐项展开式4.12如下:
(式4.16) J ( w , b , a ) = 1 2 w T w i = 1 N a i y i w T x i b i = 1 N a i y i + i = 1 N a i

根据式4.14,式4.16的右端第三项为零。由式4.13有
w T w = i = 1 N a i y i w T x i = i = 1 N j = 1 N a i a j y i y j x i T x j

相应地,设置目标函数 J ( w , b , a ) = Q ( a ) ,可以将式4.16改写成:
Q ( a ) = i = 1 N a i 1 2 i = 1 N j = 1 N a i a j y i y j x i T x j

现在可以将对偶问题做如下陈述:
给定训练样本 τ = ( x i , d i ) ,寻找最大化如下目标函数的拉格朗日乘子 a i :

Q ( a ) = i = 1 N a i 1 2 i = 1 N j = 1 N a i a j y i y j x i T x j

满足约束条件:
i = 1 N a i y i = 0

a i 0 i = 1 , 2 , 3.... , N

可以用式4.13计算最优权值向量 w 0 ,并写成:
w 0 = i = 1 N a 0 , i y i x i

运用式4.7,有:
b 0 = 1 w 0 T x ( s ) = 1 i = 1 N a o , i d i x i T X ( s )

[1]: 神经网络与机器学习 [加] Simmon Haykin

猜你喜欢

转载自blog.csdn.net/moge19/article/details/80317384