机器学习——六、支持向量机理论知识

目录

6.1 间隔与支持向量

1.了解样本点到超平面的距离公式

2. 了解支持向量机“间隔”的定义和计算公式

3. 了解支持向量机的“间隔最大化”和等价“间隔最小化”的定义和公式

6.2 对偶问题

4. 熟悉支持向量机一般形式公式、拉格朗日函数公式和对偶函数公式

5. 掌握拉格朗日函数的偏导数求解过程

6. 掌握从拉格朗日函数到对偶函数的求解过程

7. 熟悉支持向量机为什么要引入拉格朗日乘子?为什么要求对偶函数?

8. 熟悉SMO算法的基本思想和变量选择的基本步骤

6.3 核函数

9. 了解五类基本核函数

6.4 软间隔与正则化

10.了解软间隔和硬间隔定义,以及各自的优点和不足

11.了解三种常见的替代损失函数及其曲线形式

12.熟悉Hinge损失、指数损失(exponential loss)、对率损失(logistic loss)的区别和联系

6.5 支持向量回归

13. 了解软间隔支持向量机中松弛变量的作用

14. 了解支持向量回归的解决的主要问题

6.6 核方法


6.1 间隔与支持向量

1.了解样本点到超平面的距离公式

               样本点到超平面的距离公式;

超平面wTx+b=0

w为法向量,决定了超平面的方向;

b 为位移项,决定了超平面与原点之间的距离。

任意点x到超平面(w, b)的距离可写为: (回忆 点到直线距离公式)

        为什么要计算两者之间的距离?

2. 了解支持向量机“间隔”的定义和计算公式

支持向量:距离超平面最近的这几个使上式的等号成立的训练样本点

间隔:两个异类支持向量到超平面的距离之和

3. 了解支持向量机的“间隔最大化”和等价“间隔最小化”的定义和公式

SVM的核心思想:找到具有 “最大间隔”(maximum margin)的划分超平面(间隔最大化)

SVM的基本型:等价“间隔最小化”

凸二次规划问题

6.2 对偶问题

4. 熟悉支持向量机一般形式公式、拉格朗日函数公式和对偶函数公式

  • 一般形式公式:

  • 拉格朗日函数公式:

  • 对偶函数公式:


最终模型:

 

KKT条件:

解的稀疏性:

训练完成后, 最终模型仅与支持向量有关,支持向量机(Support Vector Machine, SVM) 因此而得名。

5. 掌握拉格朗日函数的偏导数求解过程

对每一条约束增加拉格朗日乘子,得到该问题的拉格朗日函数

6. 掌握从拉格朗日函数到对偶函数的求解过程

上式回代可得

7. 熟悉支持向量机为什么要引入拉格朗日乘子?为什么要求对偶函数?

  1. 支持向量机为什么要引入拉格朗日乘子?

凸二次规划问题能直接用现成的优化计算包求解,但使用拉格朗日乘子法可以更高效。

  1. 为什么要求对偶函数?
    1. 改变了问题的复杂度,通常来说,对偶问题更容易求解
    2. 便于引入核函数,使SVM适用于非线性数据

8. 熟悉SMO算法的基本思想和变量选择的基本步骤

基本思想:不断执行如下两个步骤直至收敛

  1. 步骤1:选取一对需要更新的变量αi和αj
  2. 步骤2:固定αi和αj以外的参数,求解对偶问题更新后的αi和αj

先固定αi之外的所有参数,然后求αi上的极值。由于存在(6.10)式的约束,若固定αi之外的其它变量,则αi可由其他变量导出。于是,SMO每次选择两个变量αi和αj,并固定其他参数

6.3 核函数

9. 了解五类基本核函数

核函数:设计核函数

绕过显式考虑特征映射、以及计算高维内积的困难

(高斯核亦称RBF核)

 

 

也都是核函数。

6.4 软间隔与正则化

10.了解软间隔和硬间隔定义,以及各自的优点和不足

  • 硬间隔:要求所有样本均满足约束(6.3),即:全部划分正确
  • 软间隔:允许支持向量机在一些样本上出错,即:允许部分划分错误

11.了解三种常见的替代损失函数及其曲线形式

  • Hinge损失

  • 指数损失(exponential loss)

  • 对率损失(logistic loss)

“0/1”损失函数非凸、非连续,数学性质不好,故引入上述替代损失函数

12.熟悉Hinge损失、指数损失(exponential loss)、对率损失(logistic loss)的区别和联系

13. 了解软间隔支持向量机中松弛变量的作用

引 入 “松弛变量”(slack variables)  ,可将上式重写为

这就是常用的“软间隔支持向量机”。

引入松弛变量可以增加容错性

(给1这个硬性的阈值加一个松弛变量,用以表征该样本不满足约束的程度)

6.5 支持向量回归

14. 了解支持向量回归的解决的主要问题

解决回归问题

SVM:使到超平面最近的样本点的“距离”最大

SVR:使到超平面最远的样本点的“距离”最小

  • 传统回归模型
    1. 要f(x)与y不相等时,就计算损失
  • SVR
    1. 数据在间隔带内则不计算损失,当且仅当f(x)与y之间的差距的绝对值大于ε才计算损失SVR在线性函数两侧制造了一个“间隔带”,间距为2ε)
    2. 通过最大化间隔带的宽度与最小化总损失来优化模型

6.6 核方法

pass

猜你喜欢

转载自blog.csdn.net/m0_63834988/article/details/129310718