支持向量机 Support Vector Machine （SVM）初步理解

文章目的：对支持向量机的内容有一个初步的了解。为了弄懂其中的内容查阅了很多资料，所以里面应该会有引用其他帖子的部分内容，如果原作者看到可以私信我，我会将您的帖子的地址付到下面。

简介

支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。

SVM可分为三种模型：线性可分支持向量机与硬间隔最大化（hard margin maximization），线性支持向量机与软间隔最大化（soft margin maximization）和非线性支持向量机与核函数。即：

当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

二、线性可分支持向量机与硬间隔最大化

线性可分，就是指至少存在一个超平面，能把正例跟负例完全分隔开，那么这个数据集就是线性可分的。

1、间隔最大化和支持向量

如果一个线性函数能够将样本分开，称这些数据样本是线性可分的。那么什么是线性函数呢？其实很简单，在二维空间中就是一条直线，在三维空间中就是一个平面，以此类推，如果不考虑空间维数，这样的线性函数统称为超平面。我们看一个简单的二维空间的例子，O代表正类，X代表负类，样本是线性可分的，但是很显然不只有这一条直线可以将样本分开，而是有无数条，我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。

要求间隔最大的原因：一般来说，一个点距离超平面的远近可以表示分类预测的确信度，如图中的A，B两个样本点，B点被预测为正类的确信度要大于A点，所以SVM的目标是寻找一个超平面，使得离超平面较近的异类点之间能有更大的间隔，即不必考虑所有样本点，只需让求得的超平面使得离它近的点间隔最大。

硬间隔最大化：由于硬间隔是存在于数据集线性可分的情况下，且能把所有的样本点正确分在超平面两侧。因此线性可分支持向量机的间隔最大化就是指硬间隔最大化。

支持向量：离超平面越近的越难分是正例还是负例，要想加新的点以后预测更准确，就要使得样本点到超平面的最小距离l最大（距离越大越容易分类）而这个能得到最小距离L的样本点（距离超平面最近的点）就叫做支持向量。支持向量一定是正负例都有的，它是平行于超平面，到超平面的距离为L的两个超平面上的样本点。

如何进行间隔最大化？如何计算间隔？

怎么计算间隔？只有计算出了间隔，才能使得间隔最大化。在样本空间中，划分超平面可通过如下线性方程来描述：
这里写图片描述
其中w为法向量，决定了超平面的方向，b为位移量，决定了超平面与原点的距离。假设超平面能将训练样本正确地分类，即对于训练样本(xi,yi)，满足以下公式：

公式（2）称为最大间隔假设，yi=+1表示样本为正样本，yi=−1表示样本为负样本，式子前面选择大于等于+1，小于等于-1只是为了计算方便，原则上可以是任意常数，但无论是多少，都可以通过对 w 的变换使其为 +1 和 -1 ，此时将公式（2）左右都乘以 yiyi，得到如下：
这里写图片描述
实际上等价于：

训练集中的所有样本都应满足公式（3）。如下图所示，距离超平面最近的这几个样本点满足 yi(wTxi+b)=1yi(wTxi+b)=1，它们被称为“支持向量”。虚线称为边界，两条虚线间的距离称为间隔（margin）。

这里写图片描述
下面我们开始计算间隔，其实间隔就等于两个异类支持向量的差在 w 上的投影，即：

其中 $\overrightarrow{x}_+$ 和 $\overrightarrow{x}_{-}}$ 分别表示两个正负支持向量，因为 $\overrightarrow{x}_+$ 和 $\overrightarrow{x}_{-}}$ 满足，即： $\large y_i(w^Tx_i+b)=1$
这里写图片描述，
推出：
，
代入公式（4）中可以得到：

至此，我们求得了间隔，SVM的思想是使得间隔最大化，也就是：

显然，最大化 2||w||2||w|| 相当于最小化 ||w||，为了计算方便，将公式（6）转化成如下：
这里写图片描述
公式（7）即为支持向量机的基本型。

2、对偶问题

公式（7）本身是一个凸二次规划问题，可以使用现有的优化计算包来计算，但我们选择更为高效的方法。对公式（7）使用拉格朗日乘子法得到其对偶问题，具体来说，对式（7）的每条约束添加拉格朗日乘子 $\large \alpha _i\geqslant 0$ ，则该问题的拉格朗日函数可以写为：
这里写图片描述
公式（8）分别对 w 和 b求偏导：

令其分别为0，可以得到：

将公式（9）（10）代入公式（8），可得：

此时，原问题就转化为以下仅关于 αα 的问题：

解出 αα 之后，根据公式（9）可以求得 w ，进而求得 b，可以得到模型：
这里写图片描述
上述过程的KKT条件为：

我们分析一下，对于任意的训练样本 (xi,yi)，

若 αi=0，则其不会在公式（13）中的求和项中出现，也就是说，它不影响模型的训练；
若 αi>0，则 yif(xi)−1=0，也就是 yif(xi)=1，即该样本一定在边界上，是一个支持向量。

这里显示出了支持向量机的重要特征：当训练完成后，大部分样本都不需要保留，最终模型只与支持向量有关

三、线性支持向量机与软间隔最大化

个人理解：这里与线性可分支持向量机不同的地方在于把“可分”两个字去掉了，意思就是说需要面临线性不可分的情况。如在训练数据中存在一些特异点，它们不满足线性可分支持向量机的约束条件，即不满足 $\large y_i(w^Tx_i+b)\geq 1$ 。但当这些特异点去除后，剩下的训练数据集合是线性可分的。

1、线性支持向量机

线性不可分意味着某些样本点 (xi,yi)不能满足间隔大于等于1的条件，样本点落在超平面与边界之间。为解决这一问题，可以对每个样本点引入一个松弛变量 ξi≥0，使得间隔加上松弛变量大于等于1，这样约束条件变为：

$\large y_i(w^Tx_i+b)\geq 1- \xi _i$ （14）

同时，对于每一个松弛变量 ξi≥0，支付一个代价 ξi≥0，目标函数变为：

$\large \frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{m}\xi_i$ （15）

其中 C>0为惩罚参数，C值大时对误分类的惩罚增大， C值小时对误分类的惩罚减小，公式（21）包含两层含义：使 $\large \frac{1}{2}\left \| w \right \|^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量小，C是调和两者的系数。
有了公式（15），可以和线性可分支持向量机一样考虑线性支持向量机的学习过程，此时，线性支持向量机的学习问题变成如下凸二次规划问题的求解（原始问题）：

$\large \underset{w,b}{min}\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{m}\xi_i,$ （16）

s.t. $\large y_i(w^Tx_i+b)\geq 1- \xi _i$

2、对偶问题

与线性可分支持向量机的对偶问题解法一致，公式（16）的拉格朗日函数为：
这里写图片描述
其中 αi≥0,μi≥0 是拉格朗日乘子。

令 L(w,b,α,ξ,μ)对 w,b,ξ的偏导数为0可得如下：
这里写图片描述
将公式（24）（25）（26）代入公式（23）得对偶问题：

解出 α之后，根据公式（9）可以求得 w ，进而求得 b，可以得到模型：
$\large f(x)=w^Tx+b=\sum_{i=1}^m\alpha _iy_ix_i^Tx+b$
上述过程的KKT条件为：

我们分析一下，对于任意的训练样本 (xi,yi)，总有 αi=0或者 yif(xi)−1+ξi=0。

若 αi=0，则该样本不出现在公式（13）中，不影响模型。
若 αi>0，必有 yif(xi)−1+ξi=0，即 yif(xi)=1−ξi，此时该样本为支持向量。

由于 C=αi+μi（公式26）

若 αi<C，则必有 μi>0 ，根据公式（28）知 ξi=0 ，即该样本恰好落在最大间隔的边界上；
若 αi=C ，则 μi=0，此时若 ξi≤1 则该样本在最大间隔内部，若 ξi>1 则样本分类错误。

四、非线性支持向量机和核函数

对于非线性问题，线性可分支持向量机并不能有效解决，要使用非线性模型才能很好地分类。先看一个例子，如下图，很显然使用直线并不能将两类样本分开，但是可以使用一条椭圆曲线（非线性模型）将它们分开。非线性问题往往不好求解，所以希望能用解线性分类问题的方法求解，因此可以采用非线性变换，将非线性问题变换成线性问题。
这里写图片描述
对于这样的问题，可以将训练样本从原始空间映射到一个更高维的空间，使得样本在这个空间中线性可分，如果原始空间维数是有限的，即属性是有限的，那么一定存在一个高维特征空间是样本可分。令ϕ(x)表示将 x 映射后的特征向量，于是在特征空间中，划分超平面所对应的的模型可表示为：

$\large f(x)=w^T\phi (x)+b$ （29）

于是有最小化函数：

$\large \underset{w,b}{min}\frac{1}{2}\left \| w \right \|^2$ （30）

s.t. $\large y_i(w^T\phi (x_i)+b)\geq 1$
其对偶问题为：

$\large \underset{\alpha}{\max}\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$ （31）

$\large s.t.\sum_{i=1}^m\alpha_iy_i=0, \alpha_i\geqslant 0$

若要对公式（31）求解，会涉及到计算 $\large \phi(x_i)^T\phi(x_j)$ ，这是样本 xi和 xj映射到特征空间之后的内积，由于特征空间的维数可能很高，甚至是无穷维，因此直接计算 $\large \phi(x_i)^T\phi(x_j)$ 通常是困难的，于是设想这样一个函数：

$\large k(x_i,x_j)=\left \langle \phi(x_i),\phi(x_j) \right \rangle=\phi(x_i)^T\phi(x_j)$ （32）
即 xi和 xj在特征空间中的内积等于他们在原始样本空间中通过函数 κ(xi,xj) 计算的函数值。（注：xj即为吴恩达老师视频所说中的地标，可以直接选取训练集作为地标。另xi可以是训练集、交叉验证集或者测试集中的数据）于是公式（31）写成如下：

$\large \underset{\alpha}{\max}\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jk(x_i,x_j)$ （33）
$\large s.t.\sum_{i=1}^m\alpha_iy_i=0, \alpha_i\geqslant 0$
求解后得到：

$\large f(x)&=w^T\phi (x)+b \\ &=\sum_{i=1}^m\alpha_iy_i\phi(x_i)^T\phi(x_j)+b \\ &=\sum_{i=1}^m\alpha_iy_ik(x_i,x_j)+b$

这里的函数 κ(xi,xj)就是核函数（核函数的理解可以看吴恩达老师的视频）。在实际应用中，通常人们会从一些常用的核函数里选择（根据样本数据的不同，选择不同的参数，实际上就得到了不同的核函数），下面给出常用的核函数：