机器学习 - 支持向量机（2）- 线性 SVM（软间隔最大化）

机器学习 -支持向量机（2）- 线性 SVM（软间隔最大化）

线性 SVM
软间隔最大化
对偶算法
支持向量

线性 SVM

上一篇文章介绍了在数据线性可分时 SVM 的构建过程，即硬间隔最大化。而当数据线性不可分时，硬间隔最大化是不适用的。（对比与感知器算法，感知器算法在面对线性不可分的数据时是无法收敛的。）

为了解决线性不可分的数据，我们使用软间隔最大化。
软间隔最大化

线性不可分意味着某些数据样本不满足点到超平面距离大于等于 1 的约束条件，所以我们可以对每一个样本点加入一个松弛变量，使得函数间隔加上松弛变量后大于等于 1，此时对原本就满足约束条件的样本点也没有影响。

则约束条件变为： $y_i(w·x_i+b)-1+ξ_i \ge 0$

同时对每一个松弛变量 $ξ_i$ ，付出一个代价的 $ξ_i$ ，则目标函数变为： $\frac{1}{2}||w||^2 + C\sum_{i=1}^{M}ξ_i$

这里 C > 0 称为惩罚参数，一般根据不同的应用场景决定。C 值越大，意味着对误分类的惩罚越大；C 值越小，意味着对误分类的惩罚越小。此时最小化目标函数包含了两层含义：使 $\frac{1}{2}||w||^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量小，C 是调和二者的系数。

那么此时线性 SVM 的学习问题变成如下凸二次规划（Convex quadratic programming）问题：

$\mathop{}_{w,b}^{\max} \frac{1}{2}||w||^2+C\sum_{i=1}^{M}ξ_i$

$s.t.$ $y_i(w·x_i+b)-1 \ge 0,i=1,2,...,M$

$ξ_i\ge0,i=1,2,...,M$

解上述约束问题，得最优解 $w^*,b^*$ ，得到分离超平面 $w^*x+b^*=0$ ，存在且唯一；

决策函数 $f(x)=sign(w^*x+b^*)$

从问题描述中我们可以看出，线性 SVM 是包含之前所讲的线性可分 SVM 的，而且由于现实中数据往往线性不可分，所以线性 SVM 具有更广的适用性。

值得注意的是，在最终的分离超平面以及决策函数中没有 $ξ$ 的出现。因为 $ξ$ 所对应的样本点是误分类点，即到超平面距离小于 1 的点，它只影响 $w^*,b^*$ 的值，一旦 $w^*,b^*$ 确定以后，这些点就没有用了。我们需要的仍然只是支持向量。
对偶算法

线性 SVM 的学习过程与线性可分 SVM 的过程是类似的：
1. 构建拉格朗日函数
  
  $L(w,b,α,ξ,μ)=\frac{1}{2}||w||^2+C\sum_{i=1}^{M}ξ_i-\sum_{i=1}^{M}α_i[y_i(w·x_i+b)-1+ξ_i]-\sum_{i=1}^{M}μ_iξ_i$
1. 根据对偶性，将原始“最小最大”问题转化为“最大最小”问题
  
  $\mathop{}_{w,b,ξ}^{\min}\mathop{}_{α}^{\max} L(w,b,α,ξ,μ) \Longrightarrow \mathop{}_{α}^{\max}\mathop{}_{w,b,ξ}^{\min} L(w,b,α,ξ,μ)$
1. 对 $w,b,ξ$ 求偏导并令其等于 0
  
  $\nabla_wL(w,b,α,ξ,μ)=w-\sum_{i=1}^{M}α_iy_ix_i=0$
  
  $\nabla_bL(w,b,α,ξ,μ)=\sum_{i=1}^{M}α_iy_i=0$
  
  $\nabla_ξL(w,b,α,ξ,μ)=C-α_i-μ_i=0$
  
  得
  
  $w=\sum_{i=1}^{M}α_iy_ix_i$
  
  $\sum_{i=1}^{M}α_iy_i=0$
  
  $C-α_i-μ_i=0$
  
  将结果代回，得
  
  $\mathop{}_{w,b}^{\min} L(w,b,α,ξ,μ)=-\frac{1}{2}\sum_{i=1}^{M}\sum_{j=1}^{M}α_iα_jy_iy_j(x_i·x_j)+\sum_{i=1}^{M}α_i$
1. 求 $\mathop{}_{w,b}^{\min} L(w,b,α,ξ,μ)$ 对 $α$ 的极大 $\mathop{}_{α}^{\max}\mathop{}_{w,b}^{\min} L(w,b,α,ξ,μ)$
  
  添 “负号”将求极大转化为求极小，得到，
  
  $\mathop{}_{α}^{\min} \frac{1}{2}\sum_{i=1}^{M}\sum_{j=1}^{M}α_iα_jy_iy_j(x_i·x_j)-\sum_{i=1}^{M}α_i$
  
  根据 $C-α_i-μ_i=0$ 可将 $μ_i$ 消去，从而只留下变量 $α_i$ ，所以约束变为
  
  $0\leα_i\le C$
  
  最终问题变为
  
  $\mathop{}_{α}^{\min} \frac{1}{2}\sum_{i=1}^{M}\sum_{j=1}^{M}α_iα_jy_iy_j(x_i·x_j)-\sum_{i=1}^{M}α_i$
  
  $s.t.$ $\sum_{i=1}^{M}α_iy_i=0$
  
  $0\leα_i\le C,i=1,2,...,M$
1. 求得最优解 $α^*=(α_1,α_2,...,α_M)^T$ ，根据 KKT 条件，
  
  由此可得到
  
  $w^*=\sum_{i=1}^{M}α_i^*y_ix_i$
  
  $b^*=y_j-\sum_{i=1}^{M}α_i^*y_i(x_i·x_j)$
1. 最终
  
  分离超平面可写成： $\sum_{i=1}^{M}α_i^*y_i(x·x_j)+b^*=0$
  
  分类决策函数可写成： $f(x)=sign(\sum_{i=1}^{M}α_i^*y_i(x·x_j)+b^*)$
支持向量

在线性不可分的情况下，将对应于 $α_i^*>0$ 的数据样本 $x_i$ 称为支持向量。

在软间隔最大化的情况中，支持向量要比线性可分时的硬间隔最大化复杂一些。
1. 分类正确：
  
  若 $α_i^*<C$ ，则 $ξ_i=0$ ，支持向量恰好落在间隔边界上；
  
  若 $α_i^*=C$ ， $0<ξ_i<1$ ，支持向量在间隔边界与分离超平面之间；
  
  若 $α_i^*=C$ ， $ξ_i=1$ ，支持向量在分离超平面上；
2. 分类错误
  
  若 $α_i^*=C$ ， $ξ_i>1$ ，支持向量在分离超平面误分类一侧；

机器学习 - 支持向量机（2）- 线性 SVM（软间隔最大化）

机器学习 -支持向量机（2）- 线性 SVM（软间隔最大化）

线性 SVM

软间隔最大化

对偶算法

支持向量

猜你喜欢