【20200429】数据挖掘DM课程课业打卡八之支持向量机
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
一、课业打卡八之支持向量机
判断题
1、线性支持向量机是基于“最大边缘”原理,即希望实现分类器边缘最大化。
正确答案:√
2、线性支持向量机,在求解分类器边缘最大化的过程中,不需要满足将两类训练样本正确分开的前提。
正确答案:×
需要满足将两类训练样本正确分开的前提。
3、实现分类器边缘最大化,可以使得新的测试数据被错分的几率尽可能小,从而使得分类器的泛化能力最大化。
正确答案:√
4、线性支持向量机的求解是一个凸二次优化问题,不能保证找到全局最优解。
正确答案:×
线性支持向量机的求解是一个凸二次优化问题,能保证找到全局最优解。
5、对存在数据污染、近似线性分类的情况, 要求分类器将所有训练数据都准确分类,不会导致过拟合。
正确答案:×
会导致过拟合。
6、对存在数据污染、近似线性分类的情况,可以使用软边缘支持向量机。
正确答案:√
7、软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。在分类准确性与泛化能力上寻求一个平衡点。
正确答案:√
8、对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分。
正确答案:√
9、软间隔支持向量机的求解,可以证找到全局最优解。非线性支持向量机的求解,可以证找到全局最优解。
正确答案:√
10、支持向量机的工作原理决定了,该算法只能解决二分问题,不能解决多类分类问题。
正确答案:×
该算法可以通过改进解决多类分类问题。
二、知识点巩固
1、关于支持向量机
支持向量机 (Support Vector Machines, SVM)
优点
对复杂的非线性边界的建模能力
与其它模型相比, 它们不太容易过分拟合
支持向量机还提供了学习模型的紧凑表示
广泛的使用范围
SVM 可以用来预测和分类
它们已经用在许多领域, 包括手写数字识别、对象识别、演说人识别包括手写数字识别、对象识别、演说人识别, 以及基准时间序列预测检验
2、决策边界的“最大边缘”原理
“最大边缘”原理
:即追求分类器的泛化能力最大化。
即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。
这样可以使得新的测试数据被错分的几率尽可能小。
3、如何分类样本?
即给出一个决策超平面。
要考虑以下因素:
◆经验风险最小 (已知的样本错分最少)
◆泛化能力最大 (可能出现的新样本错分最少)
4、关于SVM的分类&SVM特点
SVM 是对二类问题设计的。
(1)SVM 的分类
(1)线性支持向量机
(2)软边缘支持向量机
(3)非线性支持向量机
(2)SVM 的特点
SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。
SVM 通过最大化决策边界的边缘来控制模型的能力
需要提供其他参数,如使用的核函数类型、为了引入松弛变量所需的代价函数C等。
分类属性处理
每个分类属性值引入一个哑变量, 转化为二元变量。
例如,如果婚姻状况有3 个值{ 单身,已婚,离异},可以对每一个属性值引入一个二元变量。
可以推广到多类问题
5、线性支持向量机
6、不可分情况:软边缘(soft margin)SVM
因此,需要允许有一定范围内的“错分”,又有较大分界区域的最优分类面。
软边缘(soft margin ) SVM
通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。
** 在分类准确性与泛化能力上寻求一个平衡点。**
其中C 和k是用户指定的参数,对误分训练实例加罚
取k=1 ,C根据模型在确认集上的性能选择。
其中, C 为惩罚因子,C越大,表示分类越严格,允许错分的样本受到的限制越大,错分的样本数少,越容易产生过拟合
。
不可分情况:软边缘(soft margin)SVM实例:
7、 非线性SVM:从低维空间到高维空间的映射
样本非线性可分,将其映射到高维空间,可使样本线性可分。
因此对非线性问题,可以把样本x映射到某个高维特征空间H,并在H中使用线性分类器。
8、关于非线性SVM之核技术
9、多类问题
SVM 是对二类问题设计的,还有一些方法也是针对二类问题的。
10、常用的SVM程序
LIBSVM :
http://www.csie.ntu.edu.tw/~cjlin/
mySVM :
http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/
……
11、matlab 的SVM函数使用
1 、数据预处理
2 、数据载入、归一化
3 、训练SVM 分类器(svmtrain )
4 、分类
可选的步骤:
交叉检验,选择最优的核函数和参数
12、重点掌握:三种向量机工作原理【考点】
简答题
(1)简述线性支持向量机的基本工作原理。
(2)简述软边缘支持向量机的基本工作原理。
(3)简述非线性支持向量机的基本工作原理。
(1)简述线性支持向量机的基本工作原理。
追求分类器的泛化能力最大化。
即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。
这样可以使得新的测试数据被错分的几率尽可能小。
(2)简述软边缘支持向量机的基本工作原理。
软边缘(soft margin)SVM 的基本工作原理:
对存在数据污染、近似线性分类的情况,可能并不存在一个最优的线性决策超平面;
当存在噪声数据时,为保证所有训练数据的准确分类,可能会导致过拟合。
因此,需要允许有一定程度“错分”,又有较大分界区域的最优决策超平面,即软间隔支持向量机。
软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。
在分类准确性与泛化能力上寻求一个平衡点。
(3)简述非线性支持向量机的基本工作原理。
对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分,并使用线性支持向量机进行分类。
Ending!
更多课程知识学习记录随后再来吧!
就酱,嘎啦!
注:
人生在勤,不索何获。