机器学习复习笔记6 （第六章支持向量机）

本篇博客的开始给大家推荐一篇非常好的介绍支持向量机的博文，这篇博文中对很多细节有详尽的描述

6.1 间隔与支持向量（填空、问答）

超平面方程定义： $\small \boldsymbol{w}^{T}\boldsymbol{x} +b=0$ ,其中法向量w决定了超平面的方向，位移项b决定了超平面与原点之间的距离

样本空间中任意点 $\small x$ 到超平面 $\small (w,b)$ 的距离为： $\small r=\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{\left \| \boldsymbol{w} \right \|}$

若超平面能够将训练样本正确分类，即对于训练集中的样本，若 $\small y_{i}=+1$ ，则有 $\small \boldsymbol{w}^{T}\boldsymbol{x} +b>0$ ，若 $\small y_{i}=-1$ ,则有 $\small \boldsymbol{w}^{T}\boldsymbol{x} +b<0$ 令：

$\small \small \left\{\begin{matrix} \boldsymbol{w}^{T}\boldsymbol{x} +b\geq +1, y_{i}=+1 \\ \boldsymbol{w}^{T}\boldsymbol{x} +b\leq -1, y_{i}=-1 \end{matrix}\right.$

支持向量：处于边界上的点，即使上式等式成立

间隔：两个一类支持向量到超平面的距离之和 $\small \gamma =\frac{2}{\left \| \boldsymbol{w} \right \|}$

6.2 对偶问题（问答、理解）

问题构建

使用拉格朗日乘子法（对偶法）

第一步：引入拉格朗日乘子 $\small a_{i}\geq 0$ 得到拉格朗日函数

第二步：令对w和b的偏导为零可得

第三步：回代

目的

寻找参数 $\small w$ 和 $\small b$ ，使得 $\small \gamma$ 最大

由上式解出 $\small a$ 后，即可根据下式求出 $\small w$ 和 $\small b$

互补松弛

KKT条件里，只要对偶变量与原问题约束相乘项相乘等于0的表达式，都是互补松弛。因为相乘的两项只有一项需要等于零。

解的稀疏性

支持向量机解的稀疏性：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。

6.3 核函数（填空）

核映射

支持向量机首先在低维空间中完成计算，然后通过核函数将输入空间映射到高维特征空间，令 $\small \phi \left ( \boldsymbol{x} \right )$ 表示将 $\small \boldsymbol{x}$ 映射后的特征向量，于是，在特征空间中划分超平面所对应的模型可表示为：

$f\left ( x \right )=\boldsymbol{w}^{T}\phi \left ( \boldsymbol{x} \right )+b$

常见核函数

6.4 软间隔与正则化（辨析）

软间隔的概念

引入“软间隔”的概念，允许支持向量机在一些样本上不满足约束，以环节高位映射较难确定和可能的过拟合问题

损失函数

由于软间隔允许某些样本不满足约束： $\small y_{i}\left (\boldsymbol{w}^{T}\boldsymbol{x_{i}} +b \right )\geq +1$ ，而又希望不满足约束的样本尽可能少，于是优化目标可以写为：

$\small \begin{matrix}min \\ w,b \end{matrix}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{m}\iota _{0/1}\left ( y_{i}\left ( \boldsymbol{w^{T}x_{i}}+b \right )-1 \right )$ ,其中 $\small \iota _{0/1}$ 是“0/1损失函数”

而0/1损失函数非凸、非连续，不宜优化，实际更常用以下计中损失函数：

互补松弛

对于使用hinge损失函数的软间隔支持向量机，KKT条件要求：

$\small \left\{\begin{matrix} a_{i}\geq 0,\mu _{i}\geq 0, \\ y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i}\geq 0, \\ a_{i}\left ( y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i} \right )=0, \\ \xi _{i}\geq 0,\mu _{i} \xi _{i}=0 \end{matrix}\right.$