Preface

本文将正式开始对SVM（Support Vector Machine，支持向量机）的推导与介绍，以及最为重要的“核”的概念。
主要内容：
Optimal Margin Classifier（最优间隔分类器）
Kernels（核函数）

Optimal Margin Classifier

在上一篇文章中我们我们要求解的最大（最优）间隔分类器为：

\begin{matrix} (1) & {min}_{γ, w, b} \frac{1}{2} {‖ w ‖}^{2} s . t . y^{(i)} (w^{T} x^{(i)} + b) \geq 1 ， i = 1, . . ., m \end{matrix}

$\text{min}_{ {\gamma },w,b} \; \frac{1}{2}{\Vert w \Vert}^2 \\s.t. \; \;\;y^{(i)}(w^Tx^{(i)}+b) \geq 1，i=1,...,m \tag{1}$
根据上一篇文章中的KKT条件中的

g_{i} (w)

$g_i(w)$ 可以推导出：

\begin{matrix} (2) & g_{i} (w, b) = - y^{(i)} (w^{T} x^{(i)} + b) + 1 \leq 0 \end{matrix}

$g_i(w,b)=-y^{(i)}(w^Tx^{(i)}+b) +1 \leq 0 \tag{2}$

当 $\alpha_i^*>0$ 时，由KKT互补条件 $\alpha_i^*g_i(w^*)=0$ 所以必有：

$g_i(w,b)=0 \tag3$

所以有：

\begin{matrix} (4) & g_{i} (w, b) = - y^{(i)} (w^{T} x^{(i)} + b) + 1 = 0 \to y^{(i)} (w^{T} x^{(i)} + b) = 1 \end{matrix}

$g_i(w,b)=-y^{(i)}(w^Tx^{(i)}+b) +1 =0 \to y^{(i)}(w^Tx^{(i)}+b)=1 \tag{4}$

这就意味着训练样本 $(x_i,y_i)$ 的函数间隔 $\hat\gamma^{(i)}=y^{(i)}(w^Tx^{(i)}+b)=1$ 。
我们通过下图直观的观察上述情况的表征：
这里写图片描述
在上图中，我们将整个样本集中少数几个函数间隔为1（函数间隔为1，通常情况下是 $\alpha_i^* \neq0 ，g_i(w,b)=0$ ）的样本点称为支持向量（Support Vectors）。
由于在这里只有 $g_i$ 约束条件，没有 $h_i$ 约束条件，所以拉格朗日算子中的拉格朗日乘数只有 $\alpha$ 。即，拉格朗日算子为：

\begin{matrix} (5) & L (w, b, α) = \frac{1}{2} {‖ w ‖}^{2} = \sum_{i = 1}^{n} α_{i} [y^{(i)} (w^{T} x^{(i)} + b) - 1] \end{matrix}

$L(w,b,\alpha)=\frac{1}{2}{\Vert w \Vert}^2=\sum \limits_{i=1}^{n} \alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1 ]\tag{5}$

它的对偶问题为：

\begin{matrix} (6) & θ_{D} (α) = {min}_{w, b} L (w, b, α) \end{matrix}

$\theta_D(\alpha) =\text{min}_{w,b} \;L(w,b,\alpha)\tag{6}$

它的对偶问题是一个求最小值的问题，然后利用拉格朗日乘数法的方式进行计算，首先分别对 $w,b$ 求偏导，并令其为零：
这里写图片描述

再求得的 $w$ 带入拉格朗日函数 $L(w,b,\alpha)=\frac{1}{2}{\Vert w \Vert}^2=\sum \limits_{i=1}^{n} \alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1 ]$ 中：

简化为我们成为 $w(\alpha)$ 的式子：

所以对偶问题转换为：

其中， $<x^{(i)},x^{(j)}>$ 表示 $x^{(i)},x^{(j)}$ 的内积，即 $<x^{(i)},x^{(j)}>=(x^{(i)})^Tx^{(j)}$ 。
在这里，我们需要对新出现的约束 $\sum \limits_{i=1}^{m} y_i\alpha_i=0$ 进行说明：
(1)假设 $\sum \limits_{i=1}^{m} y_i\alpha_i\neq0$ ，会导致 $\theta_D(\alpha) = -\infty$ 。
(2)假设 $\sum \limits_{i=1}^{m} y_i\alpha_i\neq0$ ，会导致 $\theta_D(\alpha) = W(\alpha)$ 。

通过上述对偶问题（有约束的二次优化问题），我们就求得 $\alpha^*$ 。然后带入公式：
这里写图片描述
可以求得 $w$ 。
最后在把参数 $w$ 带入原始优化问题就可以得到b了。

对于上述公式我们可以直观的理解为最坏正样本与最坏负样本的中值。
当我们知道 $w$ 时，就知道了超平面的方向。选择参数 $b$ 就是选择哪个超平面的问题了。
当我们得到参数 $w,b$ ，就可以确定一个超平面了，这个超平面将训练集分成两类。
这里写图片描述
所以：

\begin{aligned} (7) & h_{w, b} (x) & = g (w^{T} x + b) \\ (8) & = g (\sum_{i = 1}^{n} α_{i} y^{(i)} < x^{(i)}, x > + b) \end{aligned}

$\begin{align} h_{w,b}(x) &=g(w^Tx+b) \tag{7}\\ & = g(\sum \limits_{i=1}^{n} \;\alpha_iy^{(i)}<x^{(i)},x>+b) \tag{8}\\ \end{align}$
这里我们可以看到这个算法对于

x

$x$ 的依赖只限于

< x^{(i)}, x >

$<x^{(i)},x>$ 的内积。
最后这个 最优间隔分类器就是 支持向量机（Support Vector Machines）。

Kernels

Kernel （核）是隐式地将两个向量转换到其他形式然后求内积, 相比显式的转换可以极大的减少计算复杂度, 甚至可以将有限维的 $x$ 转换到无限维. 与其先求出 $\phi(x)$ 再计算 $\phi(x)^T\phi(z)$ , 不如直接算 $K(X,Z)$ , 这就是 kernel相对于手动(显式)转化的优势。

特征转化

考虑我们最初在线性回归中提出的问题，用特征房子的面积 $x$ （这里的 x 是实数），来预测房子的价格 $y$ 。假设我们从样本点的分布中看到 $x$ 和 $y$ 符合 3 次曲线，那么我们希望使用 $x$ 的三次多项式来逼近这些样本点。那么首先需要将特征 $x$ 扩展到三维 $(x,x^2,x^3)$ ，然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射（feature mapping）。
特征映射：将原始特征转化为更高维度的特征。

核函数（Kernel Function）

现在考虑核在SVM中的使用过程：

Step1：由于原始特征 $x \in \mathbb R$ 存在往往会存在一些特殊的样本（极少数的特殊情况，如果将其考虑进入线性划分往往会导致不好的结果）。
Step2：使用映射后的特征向量 $\phi(x) \in \mathbb R^n$ 而不是原始特征 $x$ 来参与计算，为了更好地拟合之外，另外的一个重要原因是样例可能存在线性不可分的情况，而将特征映射到高维空间后就解决了这个问题。
Step3：但是将原始特征映射为更高维度的特征 $\phi(x)$ 后，会导致我们在使用SVM算法中的公式（8） $h_{w,b}(x)=g(\sum \limits_{i=1}^{n} \;\alpha_iy^{(i)}<x^{(i)},x>+b)$ 无法计算原始特征内积 $<x,z>$ 映射之后的更高维度的特征的内积的情况 $<\phi(x),\phi(z)>$ （原始特征映射为更高维度的特征 $\phi(x)$ 时，由于 $\phi(x)$ 的就是代价太大或者是无限维度无法计算）。然而为了解决这个问题我们就需要使用到核函数（Kernel Function）—— $K(x,z)=<\phi(x),\phi(z)>=\phi(x)^T\phi(z)$ 。

这样一来我们就得到了核在SVM中的使用核函数。现在的问题是如何快速计算核函数 $K(x,z)=<\phi(x),\phi(z)>=\phi(x)^T\phi(z)$ 。

特殊例子

现在我们先看两个特殊的例子：
First：
假设 $x,z\in \mathbb R ^n$ ，同时，

$K(x,z)=(x^Tz)^2 \tag{9}$

展开核函数 $K(x,z)$ 得：
这里写图片描述
这个时候发现我们可以只计算原始特征 x 和 z 内积的平方（时间复杂度是 $O(n)$ ，就等价与计算映射后特征的内积。也就是说我们不需要花 $O(n^2)$ 时间了。

现在假设 $x,z$ 的维度为3，所以有：
这里写图片描述
Second：
假设 $x,z\in \mathbb R ^n$ ，同时，

$K(x,z)=(x^Tz+c)^2 \tag{10}$

展开核函数 $K(x,z)$ 得：
这里写图片描述
现在假设 $x,z$ 的维度为3，所以有：

总结上述两个例子，我们可以得到更一般的结论：
如果核函数为 $K(x,z)=(x^Tz+c)^d$ ：
所以：映射后的特征维度为 $\begin{pmatrix} n+d \\ d\\ \end{pmatrix}$ 。

由于 $K(x,z)=<\phi(x),\phi(z)>$ 表征的是向量 $\phi(x),\phi(z)$ 的内积，所以当向量 $\phi(x),\phi(z)$ 相似时，向量 $\phi(x),\phi(z)$ 会指向同一方向， $K(x,z)=<\phi(x),\phi(z)>$ 会较大；相反的，当向量 $\phi(x),\phi(z)$ 不相似时，向量 $\phi(x),\phi(z)$ 会指向不同方向， $K(x,z)=<\phi(x),\phi(z)>$ 会较小；

对于分类问题我们一般使用高斯核函数来进行：
这里写图片描述
在高斯核函数中，如果 $x,z$ 相似，那么 $\Vert x-z\Vert^2$ 接近于0，所以 $K(x,z)$ 接近于1；如果 $x,z$ 不相似，那么 $\Vert x-z\Vert^2$ 接近于无穷大，所以 $K(x,z)$ 接近于0。
既然高斯核函数能够比较 x 和 z 的相似度，并映射到 0 到 1，回想 logistic 回归，sigmoid 函数可以，因此还有 sigmoid 核函数等等。

核函数有效性判定

问题： $\exists \;\phi，\text{s.t. } \; K(x,z)=<\phi(x),\phi(z)>\;\;?$

假设一：K是一个核，即 $\exists \;\phi，\text{s.t. } \; K(x,z)=<\phi(x),\phi(z)>$ 。
假设二：对于给定的 $\{x^{(1)},..., x^{(m)}\}$ ,定义矩阵 $K \in \mathbb R ^{m*m}$ ， $K_{ij}=K(x^{(i)},x^{(j)})$ 。
假设三： $z \in \mathbb R ^{m}$ $ 。

所以有：
这里写图片描述
结论：K是一个核，则有 $z^TKz \geq 0 \to K \geq 0$ ，即K为半正定矩阵。同时它的逆命题也成立。

Mercer 定理：如果函数 K 是 $\mathbb R ^{n}*R ^{n}→\mathbb R$ 上的映射（也就是从两个 n 维向量映射到实数域）。那么如果 K 是一个有效核函数（也称为 Mercer 核函数），那么当且仅当对于训练样例 $\{x^{(1)},..., x^{(m)}\}$ ，其相应的核函数矩阵是对称半正定的。
Mercer 定理表明为了证明 K 是有效的核函数，那么我们不用去寻找 $\phi$ ，而只需要在训练集上求出各个 $k_{ij}$ ，然后判断矩阵 K 是否是半正定（使用左上角主子式大于等于零等方法）即可。

核与核函数的推广

我们最后我们需要说明我们通过核的概念将原始特征映射为高维特征以解决拟合问题和无法线性分类的问题，然后通过核函数—— $K(x,z)=<\phi(x),\phi(z)>$ 计算当前算法中的高维特征的内积以达到解决问题的目的。
但是原始特征映射为高维特征与核函数的思想不仅仅只限于SVM中，在我们前面所学习的线性回归，逻辑回归，感知器算法中都可以将计算内积的问题交给核函数来解决。
更进一步的说，只要我们在算法公式中要计算特征向量的内积时都可以使用原始特征映射为高维特征与核函数的思想来解决。

Andrew Ng机器学习课程笔记（七）之监督学习之Support Vector Machine（2）