机器学习基石第六周

Theory of Generalization

一.Restriction of Break Point
这里写图片描述
在2D perceptrons里面,当输入为四个点时所有可能的分类情况有2^4次方16个,但是由于有的情况不能靠一条直线将其分开,所以实际上的分类情况少于16种为14种。我们将第一次出现这种情况的输入点数称为break Points。
break Points的另一种解释就是你无法将任何break points 的点数完全分开,比如N=4,break points=2。那么这意味着你无法将任意的两个点完全分开。
这里写图片描述
如上图所述,如果break Points为2,那么最多只能有4种排列,否则,就会出现两个点被完全分开的情况,那么break points就不是2了。所以当我们知道一个集合的break Points后,我们就能知道该集合的上限是多少。

二.Bounding Function :Basic Cases
我们关心的并不是成长函数具体长得是什么样子的,我们关心的是成长函数的最高值。我们可以根据上一节的知识点来求得这个最高值
这里写图片描述
上表为给定N和k的情况下,我们能产生的最多种分类,当k大于N的时候k是没有意义的,所以能产生2^N种分类,当N=K时,即线不能对N个数据进行完全分类,而完全分类为2^N中分类,所以当N=K时最多分类为2^N-1种。

三. Bounding Function:inductive Cases
我们接下来要做的是对表的其他部分进行填写。
我们首先写一个程序将B(4,3)即N=4,k=3的结果写出来。
这里写图片描述
上面的数据任意三个点是不能完全切分的,我们将x1,x2,x3一样的点染成一样的颜色,上面八个点被染成了4种颜色,下面三个点被染成了3种颜色。分别记为2α和β。
所以我们有B(4,3)=11=2α+β.
而所有三个点的不同分类为:α+β=7=B(3,3)
其中B(3,3)=2^3-1.(上节讲过为什么)
然后我们只看2α部分,x4已经被完全分离了,那么要满足要求任意三个点不能被完全分离,那么x1,x2,x3中的任意两个点就不能够被完全分离。所以有α<=B(3,2).
对上面进行总结有下图:
这里写图片描述
而后面的两个函数的和也有其上限,那么就有如下公式
这里写图片描述
且这个上限为一个多项式函数。

四.A Pictorial Proof
这里写图片描述
我们理想中的公式为上诉第一个,但是实际上的公式为第二个,这是为什么呢?下面来进行推导(很有技巧但是很简单)。
我们想要知道对于假设空间里面的所有h,其中至少出现一个坏数据的概率如下式:
这里写图片描述
但是求得Eout的数据量是无限的,我们无法求出这个数值。所以我们无法直接算出这个结果,但是我们可以采取迂回的方法对其进行计算,如下图所示:

这里写图片描述
Ein与Eout的数据差值满足霍夫丁定理,所以Ein的大小与Eout的大小关系如上图右边所示(这里Eout位置未知)然后我们在找另一个数据集D’,这个D’所产生的的Ein’有两种可能,第一种与Ein同侧,另一种如上图所示与Ein分居Eout的两侧,这时候我们就能通过Ein’和Ein的差值来代替Ein与Eout的差值,所以我们得到下图的公式:
这里写图片描述
上图的第一个二分之一是因为只有当Ein’与Ein分居Eout两侧时第二个公式才会成立,而分居两侧的概率为所取样本的一半。第三个本来应该是ε但是这里出于数学上的需要取为ε/2.
对上述进行整理得到:
这里写图片描述
这时无限数据的Eout被我们替换成了Ein’,然后我们再对上诉公式执行霍夫丁定理:
这里写图片描述
这里写图片描述
这里写图片描述

这里|Ein-Ein’|>ε/2相当于|Ein-(Ein+Ein’)/2|>ε/4相当于|Ein/2-Ein’/2|>ε/4.在带入霍夫丁定理有:
这里写图片描述
得证!
上诉定理全名:Vapnik-Chervonenkis (VC) bound.

猜你喜欢

转载自blog.csdn.net/Du_Shuang/article/details/81411875
今日推荐