机器学习 - 2 -SVM核函数 - 20201123 -HK

对支持向量机SVM的核函数和可分能力谈谈自己的想法

svm找超平面的本质其实就是找一个维度
核函数就是维度的体现
当核函数A达到了这个维度，一个训练样本X对于A可分，那就说明这个维度是X的一个可分维度，核函数A只是这个维度上的一个特定的分割工具，你还可以在这个平面上找到其他的分割工具；
ex1.此时有一个核函数B，它是A的线性变换得到的，那么样本X对于B来说可分吗？
我的理解是：
可分。因为A和B在同一个维度上，而且利用核函数的性质，线性转换不会改变在高维度的非线性分割能力。
但是
我认为判断是否线性可分的依据不只是A和B是否相互可以线性转换，判断的条件可以放大。

方法就是：不要分析核函数，换一个分析点。

- 分析特征映射
（等我写完作业更新）

对于高低维度可分性的理解：

ex2.样本集是有两个人，一男一女；

我们要从男女的角度对他们分类，可分，而且很容易分（margin间隔很大，最小的间隔为1），但是这种分法用的feature太少，来俩男的你就分不开他们了；

接下来我们用一个更高维度的核函数，把他们的特征分割成了各种兴趣爱好、性格特点等，再用这些特征对他们进行分类，可分，但是不容易分（margin减小，允许小于1），因为他们的兴趣爱好会有交集部分。
但是为什么依旧可分？因为我们加入了惩罚参数c，只要他们的相似性多一些，我就增加c的大小（此时我们的目的是为了min （c+w）），惩罚函数，这样我就能找到一个综合了性别、兴趣、性别等特征的分类方法（其实就是找到了一个分割维度）。

这样分类的好处是：
虽然间隔变小了，容许了分错的样本存在，但是对于数量更大和特征复杂度更高的样本来说，高维度核函数的分割能力更强了。
这样分类的坏处是：
1.工程上，程序跑的时间更长了，而且多项式核比线性核慢很多；
2.分得越细越容易过拟合（多项式核），对于非线性分类空间想象力不足的同学可以参考决策树，决策树过拟合的极端情况就是每个样本都分给了只属于自己的一个类别；

机器学习 - 2 -SVM核函数 - 20201123 -HK

对支持向量机SVM的核函数和可分能力谈谈自己的想法

猜你喜欢