SVM中核函数的理解

这篇文章是阅读JULY大神支持向量机通俗导论（理解SVM的三层境界）的一点学习笔记。
在JULY大神原文中，对核函数解释的时候，点和点的坐标表示混用了”X”这个字母，从而为理解带来了不便。于是自己经过一些验算和重写之后，有了这一学习笔记。

我们知道，核函数的提出是在解决SVM在将低维线性不可分数据映射成高位线性可分时提出来的，于是我们直接从此开始。
对于下图(来源于导论原文)的两类数据
这里写图片描述
我们可以用一个圆将它们区分开，这个二维上的点坐标为(p,q)于是，圆我们可以用一个二次方程表示：

a 1 p + a 2 p 2 + a 3 q + a 4 q 2 + a 5 p q + a 6 = 0

根据这一方程的形式，我们构造一个五维空间，其上点与二维平面的映射关系为

(Z 1, Z 2, Z 3, Z 4, Z 5) = (p, p 2, q, q 2, p q) (1.1)

于是原二次方程即变为：

\sum i = 1 5 a i Z i + a 6 = 0

即 α Z + a 6 = 0

即一个超平面方程，通过SVM知识我们知道，这个超平面正是在五维空间上线性划分两类数据的超平面。
那么是否对于式子，

f (x) = \sum i = 1 n a i y i < x 1, x 2 > + b

将其映射为

f (x) = \sum i = 1 n a i y i < ϕ (x 1), ϕ (x 2) > + b (1.2)

是否可以对已知的非线性数据，找一个映射 ϕ()ϕ() 一股脑将数据映射到高维空间，于是就能根据限制条件求出 aiai ?
其实不行， ϕ()ϕ() 这个映射，随着原像的维数增长，像的维数会爆炸性增长，自然 ϕ()ϕ() 也会变得很庞大，所以不好求。
但是，我们不能退缩，要想出来办法。
我么思考式子1.2，我们是先映射后点积，我们能否找到一个函数 K(x1,x2)K(x1,x2) 其操作获得的结果和 <ϕ(x1),ϕ(x2)><ϕ(x1),ϕ(x2)> 结果一致，这样就不用映射，可以直接用 x1和x2x1和x2 来求得，这样就不用寻找复杂的 ϕ()ϕ() 了。
下面我们就找这样一个 K(x1,x2)K(x1,x2) 。
还是考虑二维平面上的点 x1(p1,q2),x2(p1,q2)x1(p1,q2),x2(p1,q2) ，及上文中式子1.1的映射我们有：

ϕ (x 1) = (p 1, p 21, q 1, q 21, p 1 q 1)

ϕ (x 2) = (p 2, p 22, q 2, q 22, p 2 q 2)

所以有：

< ϕ (x 1), ϕ (x 2) > = p 1 p 2 + p 21 p 22 + q 1 q 2 + q 21 q 22 + p 1 p 2 q 1 q 2 (1.3)

同时我们计算：

(< x 1, x 2 > + 1) 2 = 2 p 1 p 2 + p 21 p 22 + 2 q 1 q 2 + q 21 q 22 + 2 p 1 p 2 q 1 q 2 + 1 (1.4)

对比发现式子1.3和1.4在形式上是很相似的。
所以我们猜想， (<x1,x2>+1)2(<x1,x2>+1)2 是否等于某一映射 ϕ2()ϕ2() 所对应的 <ϕ2(x1),ϕ2(x2)><ϕ2(x1),ϕ2(x2)> 。
答案是，这个 ϕ2()ϕ2() 是有的，而且

ϕ 2 () = > (2 - \sqrt p, p 2, 2 - \sqrt q, q 2, 2 - \sqrt p q, 1)

一般化的说，其实只要满足形式上的一致性，总能找到这样一个 ϕ()ϕ() 存在。即， x1,x2x1,x2 经过 K(x1,x2)K(x1,x2) 之后得到的值正是 x1,x2x1,x2 经过某映射后内积的值，这样就不用费力去求 ϕ()ϕ() 就可获得数据点在高维的内积了。

我 们 称 K (x 1, x 2) 为 核 函 数 。

引用JULY大神的一句话

核函数绝就绝在它事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就是避免了直接在高维空间的复杂计算。

支持向量机(SVM)号称可以在保证经验风险固定较小的前提下,尽量最小化置信范围.其方法是在一个特征空间(好像要是Hilbert空间)上,找出划分两个点集的最优超平面,即使得两个点集沿该平面间隙最大.刚好落在这个间隙边上的向量叫做支持向量.这样的最大化据说就可以和置信范围最小化等价.VC维在这样的过程中是如何发生微妙变化的我还不太清楚.在两个点集不能用超平面完全划分的时候也有与此相适应的算法.推导显示求这样一个超平面,等价于求一个约束二次规划问题.

还有一个令人庆幸的事实是：如果只要求训练这样的超平面并对以后的数据做划分.SVM并不需要知道样例在特征空间中的向量表达或者甚至不需要知道特征空间的维数.它只需要知道任意两个样例映射到此空间后向量的内积.而这样的内积可以在样例(训练集或测试集中的)被映射成某个不可琢磨的特征空间中的向量之前被计算出来,完成这样计算的函数叫核函数.即使样例到特征空间的映射关系都不知道,只要该核函数满足伟大的Mercer定理,这样的特征空间就总能存在,SVM就能工作.

SVM中核函数的理解

猜你喜欢