Feasibility of Learning & Training versus Test(林轩田-机器学习)

整体思路:

1.想办法找出training set 训练出来的hypothesis 对test set的作用效果。

2.通过hoeffding不等式,把通过训练集找出适合测试集且效果好hypothesis。

做数学题或者考公务员的时候,经常会有寻找规律的题目。

那我们做一下下面这道题:

现实生活中,这类找规律的题不一定会有正确答案。你可以说g(x)=1/-1

问题:那么我们怎样保证通过训练training set能得到确保test set也得到很好的准确性。

所以这节,林老师将会从hoeffding不等式关联到机器学习的可行性。

这个例子:我们有一个bin里面装了无数个珠子(橙色和绿色),我们无法知道橙色在里面占的比例是多少。但是我们能不能通过有限的样本N,去得出呢?

不可以:如果抽出来的样本都是绿色的,但是罐子里面比较多的是橙色;

可以:抽出来的样本比例和罐子里的比例差不多。

根据hoeffding不等式,我们可以看到:如果样本数量足够大,那么我们就可以用抽出来的样本的学习效果等移过去瓶子上。

等换到机器学习上就是:如果样本数量足够大,那么我们就可以用training set的学习效果等移过去test set上。

但是,问题来了。训练的效果可以移到测试的集上,但是没有说训练集的效果是好是坏。如果训练的样本本来就是不好的,那么移到过去测试集并不能有力地说明什么。

接下来我们将会从有限的hypothesis sethypothesis set进行分析。

有限:

这一行说明,这个假设h,通过hoeffding可知,在所有数据上出现bad data的概率。

而这里每一列,说明这个data在不同的h里面的好坏程度。

我们假设如果我每一个data都是不想交的,得出的一定时最高的。所以我们可以把它设为上界。有如下公式。

这里我们只需要知道有多少条hypothesis,知道sampleN,知道宽松程度就可以等到。

如果假设空间是有限的,根据公式推导:当N足够大的时候,可以保证'出错的概率很小,在这种情况下选一个表现最好的假设空间就可以了。

但是如果hypothesis的数量M是无穷那么多个呢?

无限:

回顾:在hypothesis有限的时候,当N足够大的时候,,当找到那么也能说明

但是:

如果样本小的话,我们可以通过

得到EinEout和接近,但是可以选择的hypothesis不多,效果不能保证。

如果样本大的话,我们可能可以选到比较好的hypothesis运用到test set上,但是EinEout的误差就会很大。

但是我们在有限的情况上忽视了一个问题,那就是如果我的hypothesis得出来的bad event是有重叠部分的呢,那么我的一定小于

我能不能找出一个去代替M呢?

举个例子:

中,我的,如果问题是binary classification,那么我可以有无数条线去得出x1是圈圈还是叉叉,但是x1就只有两种结果,要么就是圈圈,要么就是叉叉。

这么一说,我们就可以把多个假设集合在x1这个点的分类,把他们归成两类:一类是把x1划分为圈;一类是把x1划分为叉。

用这种方法,我们还可以推出

N=2

N=3(这里只是最大的可能划分类,不等于所有三个点都可以划成8类,如果三个点在同一条直线上就只有6类了):

根据上面的推论,我们可以得出右图的关系。而我们可以用effectiveN)去代替M

通过binary classification的例子,我们找到了替代M的方式,即无限缩减为有限了。

我们把这种分类称之为Dichotomies: Mini-hypotheses

我们可以用dicotomies H来代替hypothesis H

接下来我们定义一个Growth Function

Growth Function的意思就是:在所有N个点的中,找出能使dichotomies最大的N个点。(提示一下,就好像刚刚binary classification,当N=3,不一定所有N=3都可以把hypothesis归成8类,但是我们把8这个最大值作为对应的Growth functionN=3对应的值)。

这样,只要保证这个N个点能产生的Growth Function值最大,记为mH(N):m就可以取代MN表示与样本点的数量有关。

不过我们可以从这些总结出来的结果看,有一些是多项式,一些是指数。前者的效果肯定是可以的,但是后者,当N越大,上限也会增得很快。

这里我们就要引入一个定义:Break Point。以binary classification来说,2N次幂确实是upper bound;但是如果N大于等于4,显然mH(4)=14,无法达到16。这里的'N=4'就是Break Point

猜你喜欢

转载自blog.csdn.net/chocolate_chuqi/article/details/78424921