支持向量机(Support vector machine)

支持向量机是一种二分类模型
基本模型是定义在特征空间上间隔最大化的线性分类器
学习策略:

间隔最大化 可形式化为求解一个凸二次规划的问题
也等价于正则化的合页损失函数的最小化问题
支持向量机的学习算法是求解凸二次规划的最优化算法

支持向量机面对不同的数据集有不同的分类策略

线性可分支持向量机      硬间隔最大化
线性支持向量机         软间隔最大化
非线性支持向量机       核技巧  软间隔最大化

线性可分支持向量机

考虑一个二分类问题假设输入空间与特征空间分为两个不同的空间

输入空间为欧式空间或离散集合
输出空间为欧式空间或希尔伯特空间

线性可分支持向量机假设这两个空间的元素一一对应并将输入空间中的输入映射为特征空间中的特征向量
非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射到为特征向量
即: 支持向量机的学习是在特征空间上进行的输入都有输入空间转化到特征空间

假设给定一个特征空间上的训练数据集
$T = {(x_1, y_1),(x_2, y_2),(x_3, y_3),(x_4, y_4).....,(x_n, y_n)}$
其中 $x \in \chi=R^n, yi \in Y=\{-1, +1\}, i = 1, 2, 3, .... ,n$
$xi为第i个特征向量也称为实例 y_i为x_i的类标记$
when $y_i = +1$ 时称 $x_i为正例$
when $y_i = -1$ 时称 $x_i为负例$
$(x_i, y_i)$ 为样本点假设训练数据集是线性可分的

目标: 在特征空间上找到一个分离超平面能将实例分到不同的类
分离超平面对应方程: $w^Tx + b = 0$
即: 分离超平面由法向量w和截距b（w, b）决定
该平面可以将特征空间分为两类一部分为正类一部分为父类

特殊情况: 当样本数据集为线性可分时存在无穷多个可分割超平面
此时引入概念间隔最大化来求最优分离超平面此时分割超平面的解是唯一的

小扩展:

什么是法向量?  用方程ax+by+c=d表示的平面 向量(a,b,c)就是其法线
感知机利用误分类最小的策略 分离超平面

综上:
给定线性可分训练数据集通过间隔最大化或等价地求解相应的凸二次规划问题学习得到分离超平面为 $w ^T x + b = 0$
以及相应的分类决策函数 $f(x) = sign(w^T x+b)$
间隔最大化以及相应的约束最优化问题

小扩展:
什么是线性规划问题?
例题:x,y满足约束条件 $x-y+3\le 0, 3x+y+5\le 0, x+3\ge 0$
问: $z=x+2y$ 的最大值为？

函数间隔与几何间隔

函数间隔

一个点距离分离超平面的远近可以表示为分离预测的确信程度
在超平面 $w^T x + b = 0$ 确定的情况下 $(w^t x+b)$ 能够相对表示点x距离超平面的远近
而 $w^T + b$ 的符号与类标记 y的符号是否一致能够表示分类是否正确
所以可用 $y(w^T + b)$ 来表示分类的正确性及确信度 —- 这就是函数间隔的概念

定义: 对于给定的训练集 $T$ 和超平面(w, b) 定义超平面（w,b）关于样本点(x_i, y_i)的函数间隔为:
$\hat r_i = y_i(w^T x_i + b)$
定义超平面 $(w， b)$ 关于训练集 $T$ 的函数间隔为超平面(w,b) 关于 $T$ 中所有样本点(x_i, y_i)的函数间隔最小值为:
$\hat r_i = \min\limits_{i=1,2,...,n} \hat r_i$
问题: 只要成比例改变(w,b) 那么函数间隔 $\hat r_i$ 之间的间隔也会成比例的改变
解决方法：对分离超平面的法向量加以约束函数间隔变为几何间隔

几何间隔

超平面(w, b)法向量w 点A表示某一实例 $x_i$ 某类标记为 $y_i =+1$ ,那么点A与超平面(w, b)的距离为:
   $r_i = \frac{w^T x}{||w||}+\frac{b}{||w||}$
   $||w||：法向量为w的L_2范数向量大小$
如果 $x_i$ 为负例那么 $y_i=-1$ 该点与超平面的距离为
   $r_i = -（ \frac{w^T x}{||w||}+\frac{b}{||w||}）$

间隔最大化

间隔最大化的直观解释在训练数据集中找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类
实质上最大间隔分离超平面的问题 —-> 就是约束最优化问题
$\max\limits_{w,b} r \\ s.t. y_i（ \frac{w^T x}{||w||}+\frac{b}{||w||}）\ge r, i=1,2,3,....,N$
即: 期望最大化超平面(w, b)关于训练集的几何间隔 $r$
约束条件表示的是: 超平面(w, b)关于每个训练样本点的几何间隔至少是r

进一步化简该公式:
$\max\limits_{w,b} \frac{r}{||w||} \\ s.t. y_i（ w^T x+b）\ge r, i=1,2,3,....,N$
函数距离 $r$ 随着(w, b)成比例的缩放而变大变小因此函数间隔的取值并不影响最优化问题的解

再化简为
$\max\limits_{w,b} \frac{1}{||w||} \\ s.t. y_i（ w^T x+b）\ge 1, i=1,2,3,....,N$

即:求 $\frac{1}{||w||}$ 在满足约束条件 $s.t. y_i（ w^T x+b）\ge 1,i=1,2,3,....,N$ 时的最大值

因此转化问题为:
$\min\limits_{w,b} \frac{1}{2}||w||^2 \\ s.t. y_i（ w^T x+b）-1 \ge 0, i=1,2,3,....,N$
实质上 该问题是一个凸二次优化问题

小扩展:

凸优化

什么是凸优化?

$~~~~$目标函数f(x)和约束函数g(x)都是R上连续可微的凸函数
$~~~~$约束函数是R^n 上的仿射函数

凸函数的几个重要概念
凸集凸优化问题线性规划二次规划二次约束规划半正定规划

凸函数与非凸函数

这里写图片描述

凸集定义

几何定义：如果集中C中任意2个元素连线上的点也在集合C中则C为凸集
常见的凸集有: n维实数空间；一些范数约束形式的集合；仿射子空间；凸集的交集；n维半正定矩阵集合

凸函数的定义

几何意义: 表示为函数任意两点连线上的值大于自变量处的函数值
凸函数的一阶充要条件为:
$f(y) \ge f(x) + \bigtriangledown_x f(x) ^T (y-x)$ 其中要求 $f(x)$ 为一阶可微
二阶充要条件为: $\bigtriangledown^2_x f(x) \ge 0$
其中要求 $f(x)$ 为二阶可微表示二阶导数需大于0才是凸函数

凸优化问题

即: 要求目标函数为凸函数变量所属集合是凸集合的优化问题目标函数是凸函数变量的约束函数是凸函数(不等式约束), 或者仿射函数(等式约束)
对于凸优化问题来说，局部最优解就是全局最优解
常见的凸优化问题
（1）线性规划问题
（2）二次规划问题
（3）二次约束的二次规划
（4）半正定规划

小扩展

约束最优化问题

指具有约束条件的非线性规划问题
极小化问题的一般形式为 (例子)
$\min\limits_{w,b} \frac{1}{2}||w||^2 \\ s.t. y_i（ w^T x+b）-1 \ge 0, i=1,2,3,....,N$

仅仅有等式约束条件的约束是最优化问题
解题思路:消元法拉格朗日乘子法或罚函数法
将其转化为无约束最优化问题求解

对于含有等于约束和不等式约束约束条件的最优化问题
可采用:
    将不等式约束化等式约束
    将约束问题化为无约束问题
    将非线性规划问题用线性逼近的方法来近似求解
    在可行域中沿某一方向做一维搜索寻求最优解

对于此类问题重点掌握: 拉格朗日乘数法
例题: 带有不等式约束的最优化问题
$\min f(d_1, d_2) = d_1^2 + d_2^2 - 2d_2 +2 \\ s.t. d_1^2+d_2^2\le 4$
（1）首先先出拉格朗日函数
$g(d_1, d_2, \lambda , \eta) = f(d_1, d_2) + \lambda(d_1^2+d_2^2-4+\eta^2)$
$\lambda:$ 拉格朗日乘子法
$\eta:$ 是一个松弛变量
（2）对四个未知量求导: $2\eta\lambda = 0\\ d_1^2+d_2^2-4+\eta^2=0\\2d_1 + 2\lambda d_1=0\\ \lambda \ge 0$
由 $d_1 + \lambda d_1=0$ 知， $d_1=0$ , $\eta \lambda=0$ 情况需要分开判断
假设 $\lambda=0 则d_2=1 \eta = \sqrt 3$
若 $\lambda > 0 则 \eta=0 与\eta<0矛盾$

学习的对偶算法

构建拉格朗日函数

原始问题与拉格朗日函数
将约束最优化问题推导为拉格朗日函数引入广义拉格朗日函数
$\min\limits_{w,b} \frac{1}{2}||w||^2 \\ s.t. y_i（ w^T x+b）-1 \ge 0, i=1,2,3,....,N$
即:
$L(w,b,\alpha) \\= \frac{1}{2}||w||^2 + \sum\limits_{i=1}^{N}\alpha_i y_i(w^T x_i + b) - \sum\limits_{i=1}^{N}\alpha_i \\ == \frac{1}{2}||w||^2 - \sum\limits_{i=1}^{N}\alpha_i y_i(w^T x_i + b) + \sum\limits_{i=1}^{N}\alpha_i$
根据拉格朗日对偶性，原始问题对偶问题是极大极小问题
为了得到对偶问题的解需要先求 $L(w, b, \alpha)对(w,b）的极小，再对\alpha求极大$

（1）求 $\min\limits_{w,b}L(w,b,\alpha)$ ，并带入原拉格朗日函数
得: $w = \sum\limits_{i=1}^{N}\alpha_i y_i x_i \\ \sum\limits_{i=1}^{N} \alpha_i y_i = 0$
带入原拉格朗日函数:
$L(w,b,\alpha) = -\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) + \sum\limits_{i=1}^{N}\alpha_i$

（2）求 $\min\limits_{w,b}L(w,b,\alpha)对\alpha的极大，即为对偶问题$
即原问题:
$\max\limits_\alpha -\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) + \sum\limits_{i=1}^{N}\alpha_i\\s.t. \sum\limits_{i=1}^{N}\alpha_iy_i=0\\ \alpha_i \ge 0, i=1,2,.....,N$
该函数转化为极大求极小
$\min\limits_\alpha \frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) - \sum\limits_{i=1}^{N}\alpha_i\\s.t. \sum\limits_{i=1}^{N}\alpha_iy_i=0\\ \alpha_i \ge 0, i=1,2,.....,N$

此时KKT条件为: $\bigtriangledown_wL(w^*,b^*,\alpha^*)=w^*-\sum\limits_{i=1}^{N}\alpha_i^*y_ix_i=0\\ \bigtriangledown_bL(w^*,b^*,\alpha^*)=-\sum\limits_{i=1}^{N}\alpha_i^*y_i=0\\ \alpha_i^*(y_i(w^*x_i + b^*)-1)=0, i=1,2,....,N\\ y_i(w^*x_i+b^*)-1 \ge 0,i=1,2,...,N \\ \alpha_i^*\ge0, i=1,2,...,N$

小扩展

KKT条件

$对原始问题和对偶问题(将广义拉格朗日函数的极大极小问题表示为约束最优化问题)，假设函数f(x)和c_i(x)是凸函数（不等式约束），h_j(x)是仿射函数(等式约束) 并且不等式约束C_j(x)是严格可行的，则x^*,和\alpha*, \beta^*分别是原始问题和对偶问题的解的充分必要条件是满足KKT条件$
$原始问题:\\ \min\limits_{x\in R^N}f(x) \\ s.t. c_i(x)\le0, i=1,2,...,K \\ h_j(x) = 0, j=1,2, ..., K$
$对偶问题(将广义拉格朗日函数的极大极小问题表示为约束最优化问题)\\ \max\limits_{\alpha,\beta} \theta_0(\alpha, \beta) = \max\limits_{\alpha,\beta}\min\limits_{x} L(x, \alpha, \beta)\\ s.t. \alpha_i \ge 0, i=1,2,...,N$
$KKT条件为: \\ \bigtriangledown_xL(x^*,\alpha^*, \beta^*) = 0\\ \bigtriangledown_{\alpha}L(x^*,\alpha^*, \beta^*) = 0\\ \bigtriangledown_{\beta}L(x^*,\alpha^*, \beta^*) = 0 \\ \alpha_i^*C_i(x^*)=0, i=1,2,3,....,N 此为:KKT的对偶互补条件由此可知若 \alpha_I^* \ge 0, 则 C_i(x^*)=0 \\ C_i(x^*)=0, i=1,2,....,N \\ \alpha_i \ge 0, i=1,2,.....,N \\ h_j(x^*) =0, i=1,2,.....,N$

线性支持向量机

线性支持向量机中存在部分样本点不符合约束条件 $y_i(w^T x_i+ b) \ge 1$
线性可分问题的支持向量机的学习方法，对线性不可分训练数据是不适用的
解决方法:修改硬间隔最大化 , 转为软间隔最大化
对每个样本点引进一个松弛变量 $\xi_i$ ,目标函数由原来的 $\frac{1}{2}||w||^2$ 变为 $\frac{1}{2}||w||^2 + C\sum\limits_{i=1}^{N} \xi_i$
$C$ 称为惩罚参数，一般由应用问题决定， $C$ 值大时对误分类的惩罚增大， $C$ 值小时, 对误分类惩罚减小
最小化目标函数包含两层含义:
(1) 使得 $\frac{1}{2}||w||^2$ 尽量小，即间隔尽量大
(2) 同时使得误分类点的个数尽量小

原始问题:
$\min\limits_{w,b,\xi} \frac{1}{2}||w||^2 + C\sum\limits_{i=1}^{N}\xi_i \\ s.t. y_i(w^T x_i + b)\ge 1 - \xi_i, i=1,2,......,N \\ \xi_i \ge 0$
原始问题的对偶问题:
$\min\limits_{\alpha} \frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{i=1}^{N}\alpha_i\alpha_jy_iy_j(x_i * x_j) - \sum\limits_{i=1}^{N}\alpha_i \\ s.t. \sum\limits_{i=1}^{N}\alpha_iy_i = 0 \\ 0 \le \alpha_i \ge C, i=1,2,.....,N$

原始最优化问题的拉格朗日函数
$L(w,b,\xi,\alpha,\mu) = \frac{1}{2}||w||^2 + C\sum\limits_{i=1}^{N}\xi_i - \sum\limits_{i=1}^{N}\alpha_i(y_i(w^T x_i + b)-1+\xi_i) - \sum\limits_{i=1}^{N}\mu_i\xi_i \\ 其中，\alpha_i\ge 0, \mu_i \ge 0$

对偶问题是拉格朗日函数极大极小问题
（1） $首先求L(w,b,\xi,\alpha,\mu)对w,\alpha,\xi的极小值$
由: $\\ \bigtriangledown_wL(w,b,\xi, \alpha, \mu) = w - \sum\limits_{i=1}^{N}\alpha_iy_ix_i=0 \\ \bigtriangledown_bL(w,b,\xi, \alpha, \mu) = - \sum\limits_{i=1}^{N}\alpha_iy_i=0 \\ \bigtriangledown_{\xi}L(w,b,\xi,\alpha,\mu) = C - \alpha_i - \mu_i = 0$
得: $\\ w=\sum\limits_{i=1}^{N}\alpha_i y_i x_i \\ \sum\limits_{i=1}^{N}\alpha_i y_i = 0 \\ C-\alpha_i - \mu_i = 0$
带入原拉格朗日函数:
$L(w,b,\xi,\alpha,\mu) = -\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) + \sum\limits_{i=1}^{N}\alpha_i$

（2）求 $\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)对\alpha的极大，即为对偶问题$
即原问题:
$\max\limits_\alpha -\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) + \sum\limits_{i=1}^{N}\alpha_i\\s.t. \sum\limits_{i=1}^{N}\alpha_iy_i=0\\ 0 \le\alpha_i \le C, i=1,2,.....,N$

该函数转化为极大求极小
$\min\limits_\alpha \frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i* x_j) - \sum\limits_{i=1}^{N}\alpha_i\\s.t. \sum\limits_{i=1}^{N}\alpha_iy_i=0\\ 0 \le\alpha_i \le C, i=1,2,.....,N$
需要满足KKT条件

    # 检验训练样本(xi, yi)是否满足KKT条件
    yi*f(i) >= 1 and alpha = 0 (outside the boundary)
    yi*f(i) == 1 and 0<alpha< C (on the boundary)
    yi*f(i) <= 1 and alpha = C (between the boundary)
    '''

参考文献

《支持向量机导论》，[美] Nello Cristianini / John Shawe-Taylor 著；

《统计学习方法》，李航著；

《支持向量机通俗导论（理解SVM的三层境界）》,，作者:July、pluskid ；致谢：白石、JerryLead博客:https://blog.csdn.net/macyang/article/details/38782399/

《关于凸优化的一些简单概念》，，博客:http://www.cnblogs.com/tornadomeet/p/3300132.html