机器学习笔记6-支持向量机（1/3）

机器学习笔记6-支持向量机（SVM）（1/3）

支持向量机（SVM）是一种二类分类模型，包括线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机；当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性分类器，即线性支持向量机；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

线性可分支持向量机
__
（1）函数间隔：对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ，定义超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的函数间隔为 ${\hat \gamma _i} = {y_i}(w{x_i} + b)$ ，定义超平面 $(w,b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w,b)$ 关于 $T$ 中所有样本点 $(x_i,y_i)$ 的函数间隔之最小值，即 $\hat \gamma = \mathop {\min }\limits_{i = 1,2...N} {\hat \gamma _i}$ 。
__
（2）几何间隔：对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ，定义超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的几何间隔为 ${{ \gamma }_i} = {y_i}{\rm{(}}\frac{w}{{\left\| w \right\|}}{x_i} + \frac{b}{{\left\| w \right\|}}{\rm{)}}$ ， $||w||$ 为 $w$ 的 $L_2$ 范数。定义超平面 $(w,b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w,b)$ 关于 $T$ 中所有样本点 $(x_i,y_i)$ 的几何间隔之最小值，即 $\gamma = \mathop {\min }\limits_{i = 1,2...N} {\gamma _i}$ 。几何间隔的目的是为了对分离超平面的法向量规范化，防止 $w$ 和 $b$ 成比例改变时，超平面不变但函数间隔发生改变的现象的出现。
__
（3）间隔最大化：支持向量机的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。这一点和感知机的不同在于感知机只求能够正确划分训练数据集，因此感知机的解有无数个。而支持向量机还要要求几何间隔最大，因此支持向量机的解只有一个。间隔最大化的直观解释是：以充分大的确信度对训练数据进行分类。不仅要正确分类，而且对最难分的实例点也有足够大的确信度将其分开。这个问题可以表述成如下约束最优化问题：
$\mathop {{\rm{max}}}\limits_{w,b} {\rm{ }}\gamma$
${y_i}{\rm{(}}\frac{w}{{\left\| w \right\|}}{x_i} + \frac{b}{{\left\| w \right\|}}{\rm{)}} \ge \gamma {\rm{, i = 1,2}}...{\rm{N}}$
以上可改写成函数间隔的形式：
$\mathop {{\rm{max}}}\limits_{w,b} {\rm{ }}\frac{{\hat \gamma }}{{\left\| w \right\|}}$
${y_i}{\rm{(}}w{x_i} + b{\rm{)}} \ge \hat \gamma {\rm{, i = 1,2}}...{\rm{N}}$
函数间隔 ${\hat \gamma }$ 的取值并不影响最优化问题的解，因为它是随 $w$ 和 $b$ 成比例的变化的。取 ${\hat \gamma}=1$ ，注意到 $\frac{1}{{\left\| w \right\|}}$ 与 $\frac{1}{2}{\left\| w \right\|^2}$ 是等价的，可得如下最优化问题
$\mathop {{\rm{min}}}\limits_{w,b} {\rm{ }}\frac{{\rm{1}}}{{\rm{2}}}{\left\| w \right\|^2}$
${y_i}{\rm{(}}w{x_i} + b{\rm{) - 1}} \ge {\rm{0, i = 1,2}}...{\rm{N}}$
这是一个凸二次规划问题。（凸优化问题包含的内容很多，这里就不展开了，因为我了解的也不深。）
在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。支持向量都满足 ${y_i}{\rm{(}}w{x_i} + b{\rm{) - 1}} = {\rm{0}}$ 。在决定分离超平面时只有支持向量起作用，其它实例点不起作用，所以才将这种分类模型称为支持向量机。支持向量的个数一般很少，所以支持向量机由很少的训练样本确定。
（4）学习的对偶算法：为了求解以上凸二次规划问题，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解。这样做的优点，一是对偶问题往往更容易求解；而是可以引入核函数，进而推广到非线性分类问题。首先构建拉格朗日函数：
$L(w,b,\alpha ) = \frac{{\rm{1}}}{{\rm{2}}}{\left\| w \right\|^2} - \sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{y_i}(w{x_i} + b)} + \sum\limits_{i = {\rm{1}}}^N {{\alpha _i}}$
其中， $\alpha = {({\alpha _1},{\alpha _2},...,{\alpha _N})^T}$ 为拉格朗日乘子向量。根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\mathop {max}\limits_\alpha \mathop {\min }\limits_{w,b} L(w,b,\alpha )$
所以为了得到对偶问题的解，需要先求 $L(w,b,\alpha )$ 对 $w,b$ 的极小，再求对 $\alpha$ 的极大。
A. 求 $\mathop {\min }\limits_{w,b} L(w,b,\alpha )$ 。将拉格朗日函数 $L(w,b,\alpha )$ 分别对 $w,b$ 求偏导数并令其等于零。可得 $w = \sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{y_i}{x_i}}$ ， $\sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{y_i}} = 0$ ，进而可得
$\mathop {\min }\limits_{w,b} L(w,b,\alpha ) = - \frac{{\rm{1}}}{{\rm{2}}}\sum\limits_{i = {\rm{1}}}^N {\sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}\cdot{x_j})} } + \sum\limits_{i = {\rm{1}}}^N {{\alpha _i}}$
B. 求 $\mathop {\min }\limits_{w,b} L(w,b,\alpha )$ 对 $\alpha$ 的极大，即是对偶问题：
$\mathop {\min }\limits_\alpha \frac{{\rm{1}}}{{\rm{2}}}\sum\limits_{i = {\rm{1}}}^N {\sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}\cdot{x_j})} } - \sum\limits_{i = {\rm{1}}}^N {{\alpha _i}}$
$\sum\limits_{i = {\rm{1}}}^N {{\alpha _i}{y_i}} = 0$ , ${{\alpha _i} \ge 0}$
可以证明对偶问题和原始问题的解是一致的。
若 ${\alpha ^*} = {(\alpha _{_1}^*,\alpha _{_2}^*,...,\alpha _{_N}^*)^T}$ 是对偶问题的解，则存在 $\alpha _{_j}^*>0$ ，使得原始问题的解为： ${w^*} = \sum\limits_{i = {\rm{1}}}^N {\alpha _i^*{y_i}{x_i}}$ ， ${b^*} = {y_j} - \sum\limits_{i = {\rm{1}}}^N {\alpha _i^*{y_i}{\rm{(}}{x_i}\cdot{x_j}{\rm{)}}}$ 。分离超平面可以写成 $\sum\limits_{i = {\rm{1}}}^N {\alpha _i^*{y_i}{\rm{(}}x \cdot {x_i}{\rm{) + }}} {b^*} = 0$ ，其只依赖于输入 $x$ 和训练样本输入的内积。由于 ${\rm{(}}{w^*},{b^*}{\rm{)}}$ 只依赖于训练数据中对应于 $\alpha _{_j}^*>0$ 的样本点 $(x_i,y_i)$ ，其它样本点对 ${\rm{(}}{w^*},{b^*}{\rm{)}}$ 无影响。因此将训练数据中对应于 $\alpha _{_j}^*>0$ 的样本点称为支持向量。

补充

拉格朗日对偶性
假设 $f(x)$ ， $c_i(x)$ ， $h_j(x)$ 是定义在 $R^n$ 上的连续可微函数。考虑约束最优化问题
$\mathop {{\rm{min}}}\limits_{x \in {R^n}} {\rm{ }}f(x)$
${c_i}{\rm{(x)}} \le {\rm{0, }}i{\rm{ = 1,2}}...{\rm{k}}$
${{\rm{h}}_j}(x) \ge 0,j = {\rm{1,2}}...l$
此为原始问题。引进广义拉格朗日函数
$L(x,\alpha ,\beta ) = f(x) + \sum\limits_{i = {\rm{1}}}^k {{\alpha _i}{c_i}{\rm{(x)}}} + \sum\limits_{j = {\rm{1}}}^l {{\beta _j}{h_j}{\rm{(x)}}}$
这里 $\alpha _i$ ， $\beta _j$ 是拉格朗日乘子， $\alpha _i \ge 0$ ，考虑 $x$ 的函数：
${\theta _P}(x) = \mathop {max}\limits_{\alpha \beta :{\alpha _i} \ge 0} L(x,\alpha ,\beta )$
对于违反约束条件的 $x$ ， ${\theta _P}(x)$ 会变为无穷大；而对于满足约束条件的 $x$ ，则 ${\theta _P}(x)=f(x)$ 。所以考虑极小化问题
$\mathop {\min }\limits_x {\rm{ }}{\theta _P}(x) = \mathop {\min }\limits_x \mathop {max}\limits_{\alpha \beta :{\alpha _i} \ge 0} L(x,\alpha ,\beta )$
与原始问题是等价的，即它们拥有相同的解。这个称为广义拉格朗日函数的极小极大问题。相应的，有广义拉格朗日函数的极大极小问题，即
$\mathop {\max }\limits_{\alpha \beta :{\alpha _i} \ge 0} {\theta _D}(\alpha ,\beta ) = \mathop {max}\limits_{\alpha \beta :{\alpha _i} \ge 0} \mathop {\min }\limits_x L(x,\alpha ,\beta )$
${\theta _D}(\alpha ,\beta ) = \mathop {\min }\limits_x L(x,\alpha ,\beta )$
将上式表示为约束最优化问题：
$\mathop {\max }\limits_{\alpha ,\beta } {\theta _D}(\alpha ,\beta ) = \mathop {max}\limits_{\alpha ,\beta } \mathop {\min }\limits_x L(x,\alpha ,\beta )$
${\alpha _i} \ge 0,i=1,2,...,k$
称为原始问题的对偶问题。若原始问题与对偶问题都有最优值，则
${d^*} = \mathop {max}\limits_{\alpha ,\beta :{\alpha _i} \ge 0} \mathop {\min }\limits_x L(x,\alpha ,\beta ) \le \mathop {\min }\limits_x \mathop {max}\limits_{\alpha ,\beta :{\alpha _i} \ge 0} L(x,\alpha ,\beta ) = {p^*}$
当 $x^*,\alpha^*,\beta^*$ 满足KKT条件时，原始问题和对偶问题的解是一致的，都是 $x^*,\alpha^*,\beta^*$ 。

机器学习笔记6-支持向量机（1/3）

机器学习笔记6-支持向量机（SVM）（1/3）

猜你喜欢