机器学习基石(5)

Eout能够确定是足够接近Ein吗?

我们能让Ein足够小吗?

M:假设集。M到底有多大,跟这两个问题有什么关系?

M比较小的时候,两者就很接近。但演算法选择就有限。

M很大的时候,演算法就有很多选择。但坏处在于坏事情发生的机率增加了,演算法多,选的数据集容易踩到雷

所以M必须适中。

 不仅Ein要接近0,而且Eout才是test集,test才要接近0;

那么回到这两个问题:他们到底会不会接近?如何使Ein足够小?

在这些博弈中,假设集的大小M,有何关系?

综上,太小太大都不好。那无限多个M,PLA中的情况,就是不好的。那之前说的PLA有啥用呢?无限大的M属于太大的情况。看看能不能用一个小的mH来代替这个无限大的M,如果可以换的话,就解决了M过大的难题。

为什么可以用union bound?因为发生坏事情的概率不太会重叠。1号假设h发生坏事的dataset和2号的dataset是不一样的。

但不太对,因为有两个很接近的假设,比如PLA,有两条很接近的线。这两个h假设,发生坏事情的dataset,应该也是很接近的。使用连积,用加的时候,没有考虑重叠,就过分估计了它的上限。

所以想办法找出这些坏事情重叠的部分。

最后画线发现,有效的数字是有限的。用这个有限的数字把M取代掉,这样坏事发生的几率仍然接近0.

这样就可以保证可能学得了东西。

那若果用线以外的假设集呢?更高维度的?

dichotomies H:最多能分出的情况,上界为2^N,

这个数字收到抓出来的一把N,如何移除对这N个数字的依赖?那就选最大的N,反复抓

数字记为mH(N),其实就是有效线的数量

到底能不能写出来整个函数?

假设输入是一维,成长函数长相就是N+1,远小于2^N,尤其是当N大时

如果是positive interval

成长函数会长什么样子?

两个端点怎么放放哪里的问题

 这样比2^N来的更小,是个好消息。

如果回到平面输入空间,定义一个假设,每个假设凸的,所有集合起来变成假设集,这样的成长函数长成什么样子?

break point

第一个出现mH比2^N小的点。出线希望的点。有一个break point以后,后面的也都是break point。有兴趣的是第一个点。pla二维情况下,breakpoint 是4.

学习路线:

拆分成两个问题:Ein和Eout会不会相差很小、Ein会不会接近于0;

二维PLA中有效的分界线:当输入为4个data,最多为14条。从有几种线出发,到几种假设集,到成长函数mH,跟假设集有关跟data量有关。成长函数的性质:它的break point

猜你喜欢

转载自blog.csdn.net/jr1261181988/article/details/86540973
今日推荐