【20200429】数据挖掘DM课程课业打卡八之支持向量机


叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
在这里插入图片描述

一、课业打卡八之支持向量机

判断题

1、线性支持向量机是基于“最大边缘”原理,即希望实现分类器边缘最大化。

正确答案:√

2、线性支持向量机,在求解分类器边缘最大化的过程中,不需要满足将两类训练样本正确分开的前提。

正确答案:×

需要满足将两类训练样本正确分开的前提。

3、实现分类器边缘最大化,可以使得新的测试数据被错分的几率尽可能小,从而使得分类器的泛化能力最大化。

正确答案:√

4、线性支持向量机的求解是一个凸二次优化问题,不能保证找到全局最优解。

正确答案:×

线性支持向量机的求解是一个凸二次优化问题,能保证找到全局最优解。

5、对存在数据污染、近似线性分类的情况, 要求分类器将所有训练数据都准确分类,不会导致过拟合。

正确答案:×

会导致过拟合。

6、对存在数据污染、近似线性分类的情况,可以使用软边缘支持向量机。

 正确答案:√

7、软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。在分类准确性与泛化能力上寻求一个平衡点。

 正确答案:√

8、对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分。

扫描二维码关注公众号,回复: 11543358 查看本文章
 正确答案:√

9、软间隔支持向量机的求解,可以证找到全局最优解。非线性支持向量机的求解,可以证找到全局最优解。

正确答案:√

10、支持向量机的工作原理决定了,该算法只能解决二分问题,不能解决多类分类问题。

正确答案:×

该算法可以通过改进解决多类分类问题。

二、知识点巩固

1、关于支持向量机

支持向量机 (Support Vector Machines, SVM)
优点

 对复杂的非线性边界的建模能力
 与其它模型相比, 它们不太容易过分拟合
 支持向量机还提供了学习模型的紧凑表示
 广泛的使用范围
 SVM 可以用来预测和分类
 它们已经用在许多领域, 包括手写数字识别、对象识别、演说人识别包括手写数字识别、对象识别、演说人识别, 以及基准时间序列预测检验

2、决策边界的“最大边缘”原理

“最大边缘”原理即追求分类器的泛化能力最大化
即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。
这样可以使得新的测试数据被错分的几率尽可能小。
在这里插入图片描述
在这里插入图片描述

3、如何分类样本?

即给出一个决策超平面。

要考虑以下因素:
◆经验风险最小    (已知的样本错分最少)
◆泛化能力最大    (可能出现的新样本错分最少)

4、关于SVM的分类&SVM特点

SVM 是对二类问题设计的。

(1)SVM 的分类

(1)线性支持向量机
(2)软边缘支持向量机
(3)非线性支持向量机

(2)SVM 的特点

 SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。

 SVM 通过最大化决策边界的边缘来控制模型的能力
   需要提供其他参数,如使用的核函数类型、为了引入松弛变量所需的代价函数C等。

 分类属性处理
   每个分类属性值引入一个哑变量, 转化为二元变量。
   例如,如果婚姻状况有3 个值{ 单身,已婚,离异},可以对每一个属性值引入一个二元变量。
  
 可以推广到多类问题

5、线性支持向量机

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

6、不可分情况:软边缘(soft margin)SVM

在这里插入图片描述
因此,需要允许有一定范围内的“错分”,又有较大分界区域的最优分类面

 软边缘(soft margin ) SVM
 通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。
 ** 在分类准确性与泛化能力上寻求一个平衡点。**

在这里插入图片描述
 其中C 和k是用户指定的参数,对误分训练实例加罚
 取k=1 ,C根据模型在确认集上的性能选择。

其中, C 为惩罚因子,C越大,表示分类越严格,允许错分的样本受到的限制越大,错分的样本数少,越容易产生过拟合

不可分情况:软边缘(soft margin)SVM实例:

在这里插入图片描述

7、 非线性SVM:从低维空间到高维空间的映射

样本非线性可分,将其映射到高维空间,可使样本线性可分。

在这里插入图片描述
在这里插入图片描述
因此对非线性问题,可以把样本x映射到某个高维特征空间H,并在H中使用线性分类器。

8、关于非线性SVM之核技术

在这里插入图片描述

9、多类问题
SVM 是对二类问题设计的,还有一些方法也是针对二类问题的。
在这里插入图片描述

10、常用的SVM程序

 LIBSVM :
    http://www.csie.ntu.edu.tw/~cjlin/
 mySVM :
    http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/
 ……

11、matlab 的SVM函数使用

 1 、数据预处理
 2 、数据载入、归一化
 3 、训练SVM 分类器(svmtrain )
 4 、分类

可选的步骤:
 交叉检验,选择最优的核函数和参数

12、重点掌握:三种向量机工作原理【考点】

简答题
(1)简述线性支持向量机的基本工作原理。
(2)简述软边缘支持向量机的基本工作原理。
(3)简述非线性支持向量机的基本工作原理。

(1)简述线性支持向量机的基本工作原理。

追求分类器的泛化能力最大化。
即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。
这样可以使得新的测试数据被错分的几率尽可能小。

在这里插入图片描述

(2)简述软边缘支持向量机的基本工作原理。

软边缘(soft margin)SVM 的基本工作原理:
 对存在数据污染、近似线性分类的情况,可能并不存在一个最优的线性决策超平面;
  当存在噪声数据时,为保证所有训练数据的准确分类,可能会导致过拟合。
  因此,需要允许有一定程度“错分”,又有较大分界区域的最优决策超平面,即软间隔支持向量机。

 软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。
  在分类准确性与泛化能力上寻求一个平衡点。

在这里插入图片描述

(3)简述非线性支持向量机的基本工作原理。

对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分,并使用线性支持向量机进行分类。

在这里插入图片描述

Ending!
更多课程知识学习记录随后再来吧!

就酱,嘎啦!

在这里插入图片描述

注:
人生在勤,不索何获。

猜你喜欢

转载自blog.csdn.net/qq_43543789/article/details/105921791
今日推荐