机器学习基石第六周

Theory of Generalization

一.Restriction of Break Point
这里写图片描述
在2D perceptrons里面，当输入为四个点时所有可能的分类情况有2^4次方16个，但是由于有的情况不能靠一条直线将其分开，所以实际上的分类情况少于16种为14种。我们将第一次出现这种情况的输入点数称为break Points。
break Points的另一种解释就是你无法将任何break points 的点数完全分开，比如N=4,break points=2。那么这意味着你无法将任意的两个点完全分开。
这里写图片描述
如上图所述，如果break Points为2，那么最多只能有4种排列，否则，就会出现两个点被完全分开的情况，那么break points就不是2了。所以当我们知道一个集合的break Points后，我们就能知道该集合的上限是多少。

二.Bounding Function :Basic Cases
我们关心的并不是成长函数具体长得是什么样子的，我们关心的是成长函数的最高值。我们可以根据上一节的知识点来求得这个最高值
这里写图片描述
上表为给定N和k的情况下，我们能产生的最多种分类，当k大于N的时候k是没有意义的，所以能产生2^N种分类，当N=K时，即线不能对N个数据进行完全分类，而完全分类为2^N中分类，所以当N=K时最多分类为2^N-1种。

三. Bounding Function:inductive Cases
我们接下来要做的是对表的其他部分进行填写。
我们首先写一个程序将B(4,3)即N=4,k=3的结果写出来。
这里写图片描述
上面的数据任意三个点是不能完全切分的，我们将x1,x2,x3一样的点染成一样的颜色，上面八个点被染成了4种颜色，下面三个点被染成了3种颜色。分别记为2α和β。
所以我们有B(4,3)=11=2α+β.
而所有三个点的不同分类为：α+β=7=B(3,3)
其中B(3,3)=2^3-1.（上节讲过为什么）
然后我们只看2α部分，x4已经被完全分离了，那么要满足要求任意三个点不能被完全分离，那么x1,x2,x3中的任意两个点就不能够被完全分离。所以有α<=B(3,2).
对上面进行总结有下图：
这里写图片描述
而后面的两个函数的和也有其上限，那么就有如下公式

且这个上限为一个多项式函数。

四.A Pictorial Proof
这里写图片描述
我们理想中的公式为上诉第一个，但是实际上的公式为第二个，这是为什么呢？下面来进行推导（很有技巧但是很简单）。
我们想要知道对于假设空间里面的所有h，其中至少出现一个坏数据的概率如下式：
这里写图片描述
但是求得Eout的数据量是无限的，我们无法求出这个数值。所以我们无法直接算出这个结果，但是我们可以采取迂回的方法对其进行计算，如下图所示：

这里写图片描述
Ein与Eout的数据差值满足霍夫丁定理，所以Ein的大小与Eout的大小关系如上图右边所示（这里Eout位置未知）然后我们在找另一个数据集D’，这个D’所产生的的Ein’有两种可能，第一种与Ein同侧，另一种如上图所示与Ein分居Eout的两侧，这时候我们就能通过Ein’和Ein的差值来代替Ein与Eout的差值，所以我们得到下图的公式：
这里写图片描述
上图的第一个二分之一是因为只有当Ein’与Ein分居Eout两侧时第二个公式才会成立，而分居两侧的概率为所取样本的一半。第三个本来应该是ε但是这里出于数学上的需要取为ε/2.
对上述进行整理得到：

这时无限数据的Eout被我们替换成了Ein’，然后我们再对上诉公式执行霍夫丁定理：
这里写图片描述

机器学习基石第六周

猜你喜欢