机器学习 复习笔记6 (第六章 支持向量机)

本篇博客的开始给大家推荐一篇非常好的介绍支持向量机的博文,这篇博文中对很多细节有详尽的描述

传送门:支持向量机通俗导论

6.1 间隔与支持向量(填空、问答)

超平面方程定义:\small \boldsymbol{w}^{T}\boldsymbol{x} +b=0,其中法向量w决定了超平面的方向,位移项b决定了超平面与原点之间的距离

样本空间中任意点\small x到超平面\small (w,b)的距离为:\small r=\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{\left \| \boldsymbol{w} \right \|}

若超平面能够将训练样本正确分类,即对于训练集中的样本,若\small y_{i}=+1,则有\small \boldsymbol{w}^{T}\boldsymbol{x} +b>0,若\small y_{i}=-1,则有\small \boldsymbol{w}^{T}\boldsymbol{x} +b<0令:

\small \small \left\{\begin{matrix} \boldsymbol{w}^{T}\boldsymbol{x} +b\geq +1, y_{i}=+1 \\ \boldsymbol{w}^{T}\boldsymbol{x} +b\leq -1, y_{i}=-1 \end{matrix}\right.

支持向量:处于边界上的点,即使上式等式成立

间隔:两个一类支持向量到超平面的距离之和\small \gamma =\frac{2}{\left \| \boldsymbol{w} \right \|}

间隔示意图
间隔示意图

6.2 对偶问题(问答、理解)

问题构建

使用拉格朗日乘子法(对偶法)

  • 第一步:引入拉格朗日乘子\small a_{i}\geq 0得到拉格朗日函数

  • 第二步:令对w和b的偏导为零可得

  • 第三步:回代

s.t.意为约束于……

目的

寻找参数\small w\small b,使得\small \gamma最大

由上式解出\small a后,即可根据下式求出\small w\small b

,

互补松弛

KKT条件里,只要对偶变量与原问题约束相乘项相乘等于0的表达式,都是互补松弛。因为相乘的两项只有一项需要等于零。

解的稀疏性

支持向量机解的稀疏性:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关。

6.3 核函数(填空)

核映射

支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,令\small \phi \left ( \boldsymbol{x} \right )表示将\small \boldsymbol{x}映射后的特征向量,于是,在特征空间中划分超平面所对应的模型可表示为:

f\left ( x \right )=\boldsymbol{w}^{T}\phi \left ( \boldsymbol{x} \right )+b

常见核函数

常用核函数
常用核函数

6.4 软间隔与正则化(辨析)

软间隔的概念

引入“软间隔”的概念,允许支持向量机在一些样本上不满足约束,以环节高位映射较难确定和可能的过拟合问题

软间隔示意图
软间隔示意图

损失函数

由于软间隔允许某些样本不满足约束:\small y_{i}\left (\boldsymbol{w}^{T}\boldsymbol{x_{i}} +b \right )\geq +1,而又希望不满足约束的样本尽可能少,于是优化目标可以写为:

\small \begin{matrix}min \\ w,b \end{matrix}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{m}\iota _{0/1}\left ( y_{i}\left ( \boldsymbol{w^{T}x_{i}}+b \right )-1 \right ),其中\small \iota _{0/1}是“0/1损失函数”

而0/1损失函数非凸、非连续,不宜优化,实际更常用以下计中损失函数:

三种常见的替代损失函数
三种常见的替代损失函数

互补松弛

对于使用hinge损失函数的软间隔支持向量机,KKT条件要求:

\small \left\{\begin{matrix} a_{i}\geq 0,\mu _{i}\geq 0, \\ y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i}\geq 0, \\ a_{i}\left ( y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i} \right )=0, \\ \xi _{i}\geq 0,\mu _{i} \xi _{i}=0 \end{matrix}\right.

可以看出KKT条件推导出的最终模型也仅与支持向量有关,也即hinge损失函数依然保持了支持向量机解的稀疏性

正则化

6.5 支持向量回归(填空、问答)

SVR特点:允许模型输出和真实输出间存在\small 2\epsilon的偏差,且同样具有互补松弛的形式、具有解的稀疏性

发布了13 篇原创文章 · 获赞 7 · 访问量 1051

猜你喜欢

转载自blog.csdn.net/qq_40688292/article/details/89969822