目录
3. 了解支持向量机的“间隔最大化”和等价“间隔最小化”的定义和公式
4. 熟悉支持向量机一般形式公式、拉格朗日函数公式和对偶函数公式
7. 熟悉支持向量机为什么要引入拉格朗日乘子?为什么要求对偶函数?
12.熟悉Hinge损失、指数损失(exponential loss)、对率损失(logistic loss)的区别和联系
6.1 间隔与支持向量
1.了解样本点到超平面的距离公式
样本点到超平面的距离公式;
超平面:wTx+b=0
w为法向量,决定了超平面的方向;
b 为位移项,决定了超平面与原点之间的距离。
任意点x到超平面(w, b)的距离可写为: (回忆 点到直线距离公式)
为什么要计算两者之间的距离?
2. 了解支持向量机“间隔”的定义和计算公式
支持向量:距离超平面最近的这几个使上式的等号成立的训练样本点
间隔:两个异类支持向量到超平面的距离之和
3. 了解支持向量机的“间隔最大化”和等价“间隔最小化”的定义和公式
SVM的核心思想:找到具有 “最大间隔”(maximum margin)的划分超平面(间隔最大化)
SVM的基本型:等价“间隔最小化”
凸二次规划问题
6.2 对偶问题
4. 熟悉支持向量机一般形式公式、拉格朗日函数公式和对偶函数公式
- 一般形式公式:
- 拉格朗日函数公式:
- 对偶函数公式:
最终模型:
KKT条件:
解的稀疏性:
训练完成后, 最终模型仅与支持向量有关,支持向量机(Support Vector Machine, SVM) 因此而得名。
5. 掌握拉格朗日函数的偏导数求解过程
对每一条约束增加拉格朗日乘子,得到该问题的拉格朗日函数
6. 掌握从拉格朗日函数到对偶函数的求解过程
上式回代可得
7. 熟悉支持向量机为什么要引入拉格朗日乘子?为什么要求对偶函数?
- 支持向量机为什么要引入拉格朗日乘子?
凸二次规划问题能直接用现成的优化计算包求解,但使用拉格朗日乘子法可以更高效。
- 为什么要求对偶函数?
- 改变了问题的复杂度,通常来说,对偶问题更容易求解
- 便于引入核函数,使SVM适用于非线性数据
8. 熟悉SMO算法的基本思想和变量选择的基本步骤
基本思想:不断执行如下两个步骤直至收敛
- 步骤1:选取一对需要更新的变量αi和αj
- 步骤2:固定αi和αj以外的参数,求解对偶问题更新后的αi和αj
先固定αi之外的所有参数,然后求αi上的极值。由于存在(6.10)式的约束,若固定αi之外的其它变量,则αi可由其他变量导出。于是,SMO每次选择两个变量αi和αj,并固定其他参数
6.3 核函数
9. 了解五类基本核函数
核函数:设计核函数
绕过显式考虑特征映射、以及计算高维内积的困难
(高斯核亦称RBF核)
也都是核函数。
6.4 软间隔与正则化
10.了解软间隔和硬间隔定义,以及各自的优点和不足
- 硬间隔:要求所有样本均满足约束(6.3),即:全部划分正确
- 软间隔:允许支持向量机在一些样本上出错,即:允许部分划分错误
11.了解三种常见的替代损失函数及其曲线形式
- Hinge损失
- 指数损失(exponential loss)
- 对率损失(logistic loss)
“0/1”损失函数非凸、非连续,数学性质不好,故引入上述替代损失函数
12.熟悉Hinge损失、指数损失(exponential loss)、对率损失(logistic loss)的区别和联系
13. 了解软间隔支持向量机中松弛变量的作用
引 入 “松弛变量”(slack variables) ,可将上式重写为
这就是常用的“软间隔支持向量机”。
引入松弛变量可以增加容错性
(给1这个硬性的阈值加一个松弛变量,用以表征该样本不满足约束的程度)
6.5 支持向量回归
14. 了解支持向量回归的解决的主要问题
解决回归问题
SVM:使到超平面最近的样本点的“距离”最大
SVR:使到超平面最远的样本点的“距离”最小
- 传统回归模型
- 要f(x)与y不相等时,就计算损失
- SVR
- 数据在间隔带内则不计算损失,当且仅当f(x)与y之间的差距的绝对值大于ε才计算损失(SVR在线性函数两侧制造了一个“间隔带”,间距为2ε)
- 通过最大化间隔带的宽度与最小化总损失来优化模型
6.6 核方法
pass