支持向量机（二）

上次说到要进行数据的升维，其实运用一些现成的核函数就能做到，核函数是为了更有利于不可线性分割的样本集，通过一些升维操作映射结果到高维空间，然后完成对数据的分类操作。

支持向量机就是一个监督学习模型，所谓监督学习就是在有已知样本集，去建立模型，然后用测试集去测试，这就是有监督，然后相对应的就是无监督学习，就是在没有已知样本集的情况下去建立模型，所有的数据都是未知分类的，都是测试数据。这是怎么实现的呢，这里面肯定有一个叫做反馈的东西，就是输出影响输入，然后去寻找一个最优的参数。（建立模型嘛，不就是找参数吗？）这里面就会有一个寻找最优解问题。

然后说下核函数吧。核函数可以使一个支持向量机构造一个超平面，或在高或无限维中使其可以用于回归，分类。常见的核函数有：线性核函数，多项式核函数，高斯核函数，字符串核函数。核函数听起来有点高端，其实就是和图像中的滤波器一样，都有异曲同工之妙，用核函数去对你的整个数据集去处理然后就能达到你自己想要的效果，就如下图：

这个图刚开始数据不能进行线性划分，但是经过坐标系变换，很明显可以用简单的直线就将数据集分为两类。

然后再给大家讲一个故事：

假设我们现在要做的就是要预测哪些东西是我们平常关注的热点问题。

这里有两个离散的名称，一个是最近比较火的”金三胖“，另一个就是“画圈圈”，这只是我自己这么叫，不要注意这些细节问题。

两个特征单独看没什么特殊的，但是如果我们用了二阶多项式核的方法进行数据处理：

k(金三胖，画圈圈)=<金三胖，画圈圈>^。

这个核函数可以把二维空间升到三维空间，展开之后是：

k(金三胖，画圈圈)=<三胖平方+画圈圈的平方+2*金三胖*画圈圈>

这样就把二维特征变成了三维，多了一维金三胖+画圈圈，这就是代表着谈论中里三胖和画圈圈同时出现。

结果大家就显然能看出来，同时出现的话，就说明我们在平时交谈中经常说起这件事。

支持向量机，简单点说就是一个分类的依据，如果在已有的支持向量机分类的情况下，你添加再多的数据也是可以很好的分类成功的，但是如果你改变了原有SVM的分类方法，也就是把分类的支持向量机改变了，那样你原本的向量机就不能用了，必须从新计算新的向量机。我自己的理解就是一个用线量分类的机器（当然这只是适用于线性分类）。

支持向量机（二）

猜你喜欢