支持向量机(SVM)初探

我相信,SVM理解到了一定程度后,是的确能在脑海里从头至尾推导出相关公式的,
最初分类函数,
最大化分类间隔,
max1/||w||,min1/2||w||^2,
凸二次规划,
拉格朗日函数,
转化为对偶问题,
SMO算法,
都为寻找一个最优解,一个最优分类平面。
—————————————————————————–某大牛

下面,我从以下5个方面介绍自己对SVM的浅显理解(如有错误,感谢指正):
一、SVM推导(包括最初分类函数、最大化margin、拉格朗日)
二、对偶问题求极值(硬间隔支持向量机)
三、SMO(待补充)
四、线性不可分,核函数
五、软间隔支持向量机与松弛变量

一、SVM推导(包括最初分类函数、最大化margin、拉格朗日)

二、对偶问题求极值(硬间隔支持向量机)

1) 、当所有约束条件都满足时,则有2式等于1/2||w||^2,亦即最初要最小化的量。
在要求约束条件得到满足的情况下最小化1/2||w||^2,实际上等价于直接最小化2式,如3式;

2)、 这里用P*表示这个问题的最优值,且和最初的问题是等价的。如果直接求解,那么一上来便得面对w和b两个参数,而又是不等式约束,这个求解过程不好做。不妨把最小和最大的位置交换一下如4式;交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用来表示。而且有d*≤P*,在满足某些条件的情况下,这两者相等,这个时候就可以通过求解对偶问题来间接地求解原始问题。

3)、之所以从minmax的原始问题,转化为maxmin的对偶问题,一者因为是的近似解,二者,转化为对偶问题后,更容易求解。接着,就可以先求L 对w、b的极小,再求L 对阿尔法的极大。

如下求L 对w、b的极小:




其对偶问题就是:

再求L 对阿尔法的极大需要SMO求

三、SMO

四、线性不可分,核函数

将图w带进超平面函数:

决策规则可以用测试点和训练点的内积来表示,所以:
如果有一种方式可以在特征空间中直接计算内积〈φ(xi · φ(x)〉,就像在原始输入点的函数中一样,就有可能将两个步骤融合到一起建立一个非线性的学习器,这样直接计算法的方法称为核函数方法。如下,这里φ是从X到内积特征空间F的映射。

1)、核函数基本思想?


上图中的数据本身就是线性不可分的,此时咱们该如何把这两类数据分开呢?

一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。如果用 X1 和 X2 来表示这
个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式:

注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为 Z1=X1, Z2=X21, Z3=X2, Z4=X22, Z5=X1X2,那么显然,上面的方程在新的坐标系下可以写作:

关于新的坐标 Z ,这正是一个 hyper plane 的方程!也就是说,如果我们做一个映射 ϕ:R2→R5 ,将 X 按照上面的规则映射为 Z ,那么在新的空间中原来的数据将变成线性可分的,从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

核函数的价值在于它虽然也是将特征进行从低维到高维的转换,但核函数绝就绝在它事先在低维上进行计算,而将实质上的分类效果表现在了高维上,也就如上文所说的避免了直接在高维空间中的复杂计算。

2)、那么,如何实现低维计算后再映射到高维呢 ?
如下两个向量:是之前的五维映射,先映射再内积后结果:
下面注意:
我们再定义一个2维to 5维空间的映射关系如下:

将此先映射到5维后再进行内积的结果同先在2维进行内积后加1再进行平方:

所以可以定义如下核函数(核函数:低维的内积经过计算 = 某种映射得到的高维的内积):

3)、几种核函数

多项式核
如上例

高斯核


如果选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一

线性核

这实际上就是原始空间中的内积。写代码方便,,只要写个模板或通用表达式,然后再代入不同的核,便可以了。

五、软间隔支持向量机与松弛变量
加了松弛变量后,那么新约束条件变为:

新的目标函数:

原来的对偶问题:

实际上都是为目标函数引入一个正则项,而上面的参数C被称之为惩罚因子。
惩罚因子的大小决定了对离群点的容忍程度(松弛的程度),比如,如果C是一个非常大的值,那么很小的松弛因子都会让目标函数的值边的很大,然后目标是在求一个最小值,这就意味着哪怕是个很小的松弛都不愿意容忍。还有一种极端的情况是如果C选定成一个无穷大的值,那么软分类间隔问题(soft margin)会退化称为一个硬分类间隔问题(hard margin)。

C越大意味着对训练数据而言能得到很好的分类结果,但是同时最大分类间隔就会变小,毕竟我们做模型不是为了在训练数据上有个多么优异的结果。相反的,如果C比较小,那么间隔就会变大,模型也就有了相对而言更好的泛化能力。两外,C较大对误分类惩罚增大。最小化目标函数包含两层含义:使间隔尽量大,同时使得误分类点个数尽量少。

拉格朗日函数:

求偏导后:


加松弛变量的对偶问题,增加了a小于C:

猜你喜欢

转载自blog.csdn.net/shinecjj/article/details/81751045
今日推荐