机器学习基石(林轩田)第五章 笔记与感悟总结

5.1Training versus Testing - Recap and Preview

训练和测试过程到底有什么不一样?

机器学习是否可行,老师说的是:

                1)资料从一个distribution中学习,如抽球问题

                2)我们有  有限的  hypothesis  的

那么无限大的hypothesis的,那怎么办?

如果我们选择了一个 g 使Ein接近0,那么Eout接近0。E是错误率,而且要Ein接近Eout。

在训练集与测试集间找平衡点使模型未来表现最佳(泛化能力最强)


这是回顾,


第四章第一堂课:我们的目标 g 约等于 f

第二堂课:使用抽样的方法,证明了机器学习是可行的。而且Ein约等于0时,说明我们的hypothesis十分的优秀。

第四堂课:证明了良好的抽样应该能是Eout尽量接近Ein,否则就不能算好的抽样。


最后提出了一个问题,问hypothesis set 的大小数量 M 对于 two central questions 有什么影响?

当M很小的时候,BAD事情发生的几率就很小。

解释一下:bad数据会使Ein和Eout不接近。


5.2Training versus Testing - Effective Number of Lines


但是M代表选择的数量,当选择数量少的时候,我们很有可能会找不到很好的 g

比喻:从0到10,找峰值,如果M为10,就是一步长为1。假如峰值为5.5,那么找的不是很好。但是如果M=100,那就有很多的选择了,就能找到。

当M很大,可以找到好的g,但是也会使找到BAD数据的事件发生几率会增加。


因此结论是无限大的 Hypothesis 不好。我们想办法解决这个问题。


我们想要用一个有限值mH,来替代无限值M。



5.2Training versus Testing - Effective Number of Lines

问题在于,我们使用了Union Bound假设后,因为有无限多个项,概率的上限变成了无穷了?这不合理。

原因在于,我们假设了各个hypothesis是不重叠的,然而实际上他们如下图右边的圈,有很多的重叠区域,会导致最后无法计算。

因此我们想到了,是否可以通过分类,每一类中都差不读,来变成有限的?



例如下图所示,我们虽然有无限多条线,但是对于二分类而言,只有两类线,如图所示。

当我们又两个点呢,会有几条线呢?就只有四类线。


同理,有3个点的时候,会有8条线。

但是问题是,一定有八条线嘛???

有两种情况无法通过一条线分开,因此只有6种




结论是,我们只要能够找到有限的几条线,并且有效的N  远小于2^N。

P式子右边的exp随着N的增大而减小,而effective(N)的增长上限又是2^N,故极限值最后为0

坏事的发生几率(Ein 不等于 Eout)很小。故我们只要能找到Ein,就能找到Eout,我们就能学到东西。





5.3 Training versus Testing - Effective Number of Hypothesises

Dichotomies的意思是二分,分为两对。对N个xi,分为两类最多的2^N个

这里的mH(N)实际就是之前的effective(N),是依赖于输入的N。


例如在一维数轴上进行二分类问题,当只有4个点时Hypothesis 只有五种。四个点最多切除5中,N个点最多切出N+1个点。N+1远小于2^N


对于区间的情况,该有多少种情况。这里最后有个+1,表示取在两边的情况。

Positive Intervals 的意思是中间有一段是正的点。因此对于

oxo这种情况无法处理,因此只有7种情况。具体如下图所示



左面是contex(凸的),而右边则不是。我们想知道成长函数(mH(N))长什么样子。



我们思考一种很极端的情景,即所有的输入都是在圆上面。我们做了一个多边形,注意圈起来的是正的数据,我们可以用一个多边形将他们分成两类。当然图中恰好是将所有的正的和负的分开,属于理想的g。而非理想的g和理想的g共有多少种呢?答案是2^N种,这是一个结论,记住,Convex sets 的情况,没有Break Point!!!即无法优化。正如翻译一样,every dichotomy can be implemented。


注意!!!这里有个shatter的概念一定要搞懂!!!

shatter就是所有的情况都发生,对于N=1,shatter的情况就是{o,x}

N=2,{oo,xx,xo,ox}之后同理。之后的学习里老师经常说shatter,一定要明白什么是shatter!!


5.4  Training versus Testing - Break Point

 我们相用mH(N)来替代N。



对于2D perceptrons 而言,4是一个break point,我们仅关注第一个break point。因为第一个break point 找到了,之后都是break point。

break point 就是我们常说的突破口。是有一线希望能够使effective(N)下降的“突破口”。



conjecture:猜想。我们的得到了一个神奇的猜想。















5.2Training versus Testing - Effective Number of Lines

猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80436404
今日推荐