支持向量机(一)(线性可分支持向量机和硬间隔最大化)

支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机线性支持向量机以及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化(hard margin maximization)学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔最大化也学习一个线性的分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。这里先介绍线性可分支持向量机的内容。

线性可分支持向量机

考虑一个二分类问题,假设输入空间与特征空间为两个不同的空间。输入空间为欧式空间或离散集合,特征空间为欧式空间或希尔伯特空间。线性可分支持向量机、线性支持向量机假设这两个空间的元素一一对应,并将输入空间中的输入映射为特征空间中的特征向量。所以,输入都由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的

假设给定一个特征空间上的训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}其中, x i ∈ X = R n x_i\in \mathcal{X}=\mathbb{R}^n xiX=Rn y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , . . . , N y_i\in \mathcal{Y}=\{+1,-1\},i=1,2,...,N yiY={ +1,1}i=1,2,...,N。假设训练数据集是线性可分的。

学习目标是在特征空间中找到一个分离超平面,能将实例分到不同的类。分离超平面对应于方程 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0,它由法向量 w w w截距 b b b 决定,可用 ( w , b ) (w,b) (w,b) 来表示。分离超平面将特征空间划分为两部分,一部分是正类,一部分是负类。

一般地,当训练数据集线性可分时,存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离超平面,这时,解是唯一的。

考虑下图所示的二维特征空间中的分类问题。图中 ● 表示正例( y i = + 1 y_i=+1 yi=+1),× 表示负例( y i = − 1 y_i=-1 yi=1)。训练数据线性可分,这时有许多直线能将两类数据正确划分。线性可分支持向量机对应着将两类数据正确划分并且间隔最大的直线

在这里插入图片描述

函数间隔和几何间隔

在上图中,有 A , B , C A,B,C ABC 三个点,表示三个实例,均在分离超平面的正类一侧,预测它们的。点 A A A 距分离超平面较远,若预测该点为正类,就比较确信预测是正确的;点 C C C 距分离超平面较近,若预测该点为正类,就不那么确信;点 B B B 位于点 A A A 和 点 C C C 之间,预测其为正类的确信度也在 A A A C C C 之间。

在超平面 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0 确定的情况下, ∣ w ⋅ x + b ∣ |w\cdot x+b| wx+b 能够相对地表示点 x x x 距离超平面的远近。而 w ⋅ x + b w\cdot x+b wx+b 的符号与类标记 y y y 的符号是否一致能够表示分类是否正确,所以可用量 y ( w ⋅ x + b ) y(w\cdot x+b) y(wx+b) 来表示分类的正确性及确信度,这就是函数间隔的概念。

定义:对于给定的训练数据集 T T T 和超平面 ( w , b ) (w,b) (w,b),定义超平面 ( w , b ) (w,b) (w,b) 关于样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 的函数间隔为 γ ^ i = y i ( w ⋅ x i + b ) \hat{\gamma}_i=y_i(w\cdot x_i+b) γ^i=yi(wxi+b)定义超平面关于训练数据集 T T T 的函数间隔为超平面 ( w , b ) (w,b) (w,b) 关于 T T T 中所有样本点的函数间隔最小值,即 γ ^ = min ⁡ i = 1 , 2 , ⋯   , N γ ^ i \hat{\gamma}=\min_{i=1,2,\cdots,N} \hat{\gamma}_i γ^=i=1,2,,Nminγ^i

函数间隔可以表示分类预测的正确性及确信度。但是选择超平面时,只有函数间隔还不够。因为只要成比例的改变 w w w b b b,超平面不会发生改变,但函数间隔却会相应的成比例改变。因此,我们可以对超平面的法向量 w w w 加某些约束,如规范化, ∥ w ∥ \|w\| w,使得间隔是确定的。这时函数间隔成为几何间隔

下图给出了超平面 ( w , b ) (w,b) (w,b) 及其法向量 w w w。点 A A A 表示某一实例 x i x_i xi,其类标记为 y i = + 1 y_i=+1 yi=+1。点 A A A 与超平面的距离由线段 A B AB AB 给出,记作 γ i \gamma_i γi
γ i = w ∥ w ∥ ⋅ x i + b ∥ w ∥ \gamma_i=\frac{w}{\|w\|}\cdot x_i + \frac{b}{\|w\|} γi=wwxi+wb其中, ∥ w ∥ \|w\| w w w w L 2 L_2 L2 范数。如果点 A A A 在超平面负的一侧,即 y i = − 1 y_i=-1 yi=1,那么点与超平面的距离为
γ i = − ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) \gamma_i=-\left(\frac{w}{\|w\|}\cdot x_i + \frac{b}{\|w\|}\right) γi=(wwxi+wb)

一般地,当样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 被超平面 ( w , b ) (w,b) (w,b) 正确分类时,点 x i x_i xi 与超平面 ( w , b ) (w,b) (w,b) 的距离是(几何间隔
γ i = y i ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) \gamma_i=y_i\left(\frac{w}{\|w\|}\cdot x_i + \frac{b}{\|w\|}\right) γi=yi(wwxi+wb)

定义:对于给定的训练数据集 T T T 和超平面 ( w , b ) (w,b) (w,b),定义超平面 ( w , b ) (w,b) (w,b) 关于样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 的几何间隔为 γ i = y i ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) \gamma_i=y_i\left(\frac{w}{\|w\|}\cdot x_i + \frac{b}{\|w\|}\right) γi=yi(wwxi+wb)定义超平面关于训练数据集 T T T 的几何间隔为超平面 ( w , b ) (w,b) (w,b) 关于 T T T 中所有样本点的几何间隔最小值,即 γ = min ⁡ i = 1 , 2 , ⋯   , N γ i \gamma=\min_{i=1,2,\cdots,N} \gamma_i γ=i=1,2,,Nminγi

在这里插入图片描述
函数间隔和几何间隔有下面的关系:
γ i = γ ^ i ∥ w ∥ γ = γ ^ ∥ w ∥ \gamma_i=\frac{\hat{\gamma}_i}{\|w\|}\\\gamma=\frac{\hat{\gamma}}{\|w\|} γi=wγ^iγ=wγ^

间隔最大化

间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说,不仅将正负实例分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

下面考虑如何求得一个几何间隔最大的分离超平面,即最大间隔分离超平面。具体地,这个问题可以表示为下面的约束最优化问题:
max ⁡ w , b γ s.t. y i ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) ≥ γ , i = 1 , 2 , ⋯   , N \begin{align} &\max_{w,b}\gamma \\ &\text{s.t.}\quad y_i\left(\frac{w}{\|w\|}\cdot x_i + \frac{b}{\|w\|}\right) \ge \gamma,\quad i=1,2,\cdots,N \end{align} w,bmaxγs.t.yi(wwxi+wb)γ,i=1,2,,N
即我们希望最大化超平面关于数据集的集合间隔 γ \gamma γ, 约束条件表示的是超平面关于每个训练样本的几何间隔至少是 γ \gamma γ。考虑几何间隔和函数间隔的关系式,可将上述最优化问题改写为
max ⁡ w , b γ ^ ∥ w ∥ s.t. y i ( w ⋅ x i + b ) ≥ γ ^ , i = 1 , 2 , ⋯   , N \begin{align} &\max_{w,b}\frac{\hat{\gamma}}{\|w\|}\\ &\text{s.t.}\quad y_i(w\cdot x_i+b)\ge \hat{\gamma},\quad i=1,2,\cdots,N \end{align} w,bmaxwγ^s.t.yi(wxi+b)γ^,i=1,2,,N
函数间隔 γ ^ \hat{\gamma} γ^ 的取值并不影响最优化问题的解,取 γ ^ = 1 \hat{\gamma}=1 γ^=1,并注意到最大化 1 ∥ w ∥ \frac{1}{\|w\|} w1 和最小化 1 2 ∥ w ∥ 2 \frac{1}{2}\|w\|^2 21w2 是等价的,于是可以得到下面的线性可分支持向量机学习的最优化问题:
min ⁡ w , b 1 2 ∥ w ∥ 2 s.t. y i ( w ⋅ x i + b ) − 1 ≥ 0 , i = 1 , 2 , ⋯   , N \begin{align} &\min_{w,b}\frac{1}{2}\|w\|^2 \\ &\text{s.t.} \quad y_i(w\cdot x_i+b)-1\ge 0 ,\quad i=1,2,\cdots,N \end{align} w,bmin21w2s.t.yi(wxi+b)10,i=1,2,,N
这是一个凸二次规划问题。如果求出了该问题的解 w ∗ , b ∗ w^*, b^* w,b,那么就可以得到最大间隔分离超平面 w ∗ ⋅ x + b ∗ = 0 w^* \cdot x + b^*=0 wx+b=0


在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。支持向量是使约束条件式 (6) 等号成立的点,即
y i ( w ⋅ x i + b ) − 1 = 0 y_i(w\cdot x_i+b)-1=0 yi(wxi+b)1=0
y i = + 1 y_i=+1 yi=+1 的正例点,支持向量在超平面
H 1 : w ⋅ x + b = 1 H_1:w\cdot x+b=1 H1:wx+b=1
y i = − 1 y_i=-1 yi=1 的负例点,支持向量在超平面
H 2 : w ⋅ x + b = − 1 H_2:w\cdot x+b=-1 H2:wx+b=1

下图所示,在 H 1 H_1 H1 H 2 H_2 H2 上的点就是支持向量。

在这里插入图片描述
注意到 H 1 H_1 H1 H 2 H_2 H2 平行,并且没有实例点落在它们中间。在 H 1 H_1 H1 H 2 H_2 H2 之间形成的长带宽度称为间隔,间隔依赖于分离超平面的法向量,等于 2 ∥ w ∥ \frac{2}{\|w\|} w2 H 1 H_1 H1 H 2 H_2 H2 称为间隔边界

在决定分离超平面时只有支持向量起作用,而其他实例点并不起作用。由于支持向量在确定分离超平面中起着决定性作用,所以将这种分类模型称为支持向量机

例子:

一个训练数据集,其正例点是 x 1 = ( 3 , 3 ) ,   x 2 = ( 4 , 3 ) x_1=(3,3),\ x_2=(4,3) x1=(3,3), x2=(4,3),负例点是 ( 1 , 1 ) (1,1) (1,1),试求最大间隔分离超平面。

根据训练集构造约束最优化问题:

min ⁡ w , b 1 2 ( w 1 2 + w 2 2 ) s.t. 3 w 1 + 3 w 2 + b ≥ 1 4 w 1 + 3 w 2 + b ≥ 1 − w 1 − w 2 − b ≥ 1 \begin{align} &\min_{w,b}\quad \frac{1}{2}(w_1^2+w_2^2) \\ \text{s.t.} && 3w_1+3w_2+b\ge 1 \\ && 4w_1+3w_2+b\ge 1 \\ && -w_1-w_2-b \ge 1 \end{align} s.t.w,bmin21(w12+w22)3w1+3w2+b14w1+3w2+b1w1w2b1

求得此最优化问题的解 w 1 = w 2 = 1 2 ,   b = − 2 w_1=w_2=\frac{1}{2},\ b=-2 w1=w2=21, b=2,于是最大间隔分离超平面为
1 2 x ( 1 ) + 1 2 x ( 2 ) − 2 = 0 \frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2=0 21x(1)+21x(2)2=0
其中, x 1 = ( 3 , 3 ) x_1=(3,3) x1=(3,3) x 3 = ( 1 , 1 ) x_3=(1,1) x3=(1,1) 为支持向量。

学习的对偶算法

为了求解线性可分支持向量机的最优化问题(式 (5)、式(6)),将它作为最原始的最优化问题,应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解,这就是线性可分支持向量机的对偶算法。

首先构建拉格朗日函数。为此,对每一个不等式约束引入拉格朗日乘子 α i ≥ 0 \alpha_i \ge 0 αi0:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i y i ( w ⋅ x i + b ) + ∑ i = 1 N α i L(w,b,\alpha)=\frac{1}{2}\|w\|^2 - \sum_{i=1}^N \alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N \alpha_i L(w,b,α)=21w2i=1Nαiyi(wxi+b)+i=1Nαi
根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:
max ⁡ α min ⁡ w , b L ( w , b , α ) \max_\alpha \min_{w,b} L(w,b,\alpha) αmaxw,bminL(w,b,α)所以,为了得到对偶问题的解,需要先求 L ( w , b , α ) L(w,b,\alpha) L(w,b,α) w , b w,b w,b 的极小,再求对 α \alpha α 的极大。

  1. min ⁡ w , b L ( w , b , α ) \min_{w,b} L(w,b,\alpha) minw,bL(w,b,α)

    将拉格朗日函数 L ( w , b , α ) L(w,b,\alpha) L(w,b,α) 分别对 w , b w,b w,b 求偏导并令其导数为 0 ∇ w L ( w , b , α ) = w − ∑ i = 1 N α i y i x i = 0 \nabla_w L(w,b,\alpha) = w-\sum_{i=1}^N \alpha_iy_ix_i=0 wL(w,b,α)=wi=1Nαiyixi=0 ∇ b L ( w , b , α ) = − ∑ i = 1 N α i y i = 0 \nabla_b L(w,b,\alpha)=-\sum_{i=1}^N \alpha_iy_i=0 bL(w,b,α)=i=1Nαiyi=0 得: w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^N \alpha_iy_ix_i w=i=1Nαiyixi ∑ i = 1 N α i y i = 0 \sum_{i=1}^N \alpha_iy_i=0 i=1Nαiyi=0
    将 上两式带入拉格朗日函数 L ( w , b , α ) L(w,b,\alpha) L(w,b,α) 中,可得 min ⁡ w , b L ( w , b , α ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i \min_{w,b} L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i w,bminL(w,b,α)=21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi
  2. min ⁡ w , b L ( w , b , α ) \min_{w,b} L(w,b,\alpha) minw,bL(w,b,α) α \alpha α 的极大,即对偶问题
    max ⁡ α − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i s.t. ∑ i = 1 N α i y i = 0 ,   α i ≥ 0 ,   i = 1 , 2 , ⋯   , N \begin{align} &\max_\alpha -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \\ &\text{s.t.} \sum_{i=1}^N\alpha_iy_i=0,\ \alpha_i \ge 0,\ i=1,2,\cdots,N \end{align} αmax21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαis.t.i=1Nαiyi=0, αi0, i=1,2,,N
    将上式的目标函数由求极大值转换成求极小值,就得到下面与之等价的对偶最优化问题: min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s.t. ∑ i = 1 N α i y i = 0 ,   α i ≥ 0 ,   i = 1 , 2 , ⋯   , N \begin{align} &\min_\alpha \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ &\text{s.t.} \sum_{i=1}^N\alpha_iy_i=0,\ \alpha_i \ge 0,\ i=1,2,\cdots,N \end{align} αmin21i=1Nj=1Nαiαjyiyj(xixj)i=1Nαis.t.i=1Nαiyi=0, αi0, i=1,2,,N

References

[1] 《机器学习方法》,李航,清华大学出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/129651756
今日推荐