只要成长函数露出曙光、资料量够多,就能确保Ein和Eout接近
一线曙光的意义是什么?跟VC维度有关
如果成长函数mH(N)在某个k的地方露出了一线曙光的话,就会被某个上线函数bound,上线函数又会被k-1次方的多项式bound住
当N、k够大的时候,N^k-1次方已经比上限大很多。
所以简单的把成长函数写成N^k-1,
可以把成长函数,带换成上限的上限的上限,mH的上限bound function的上限的上限N^(k-1),这个需要N、k够大。
几个条件让learning可能做得到:
要有好的假设集,它的成长函数要在某个地方露出一线曙光。
要有好的data,够大,确保坏事情发生的机率很低
要有好的演算法,选出一个g,让Ein很小
在breakpoint之前,最大的点,定义为vc Dimension,是一个假设的性质。
在vc Dimension 之前,可以shatter N输入。资料量小于dvc的话,就存在某个资料会被假设shatter
如果资料大于dvc,每个资料都不能被shatter
这N个点不能被假设集shatter,但可能另有任意的其他N个点能被shatter,如果有,那就大于等于N。如果没有任意N个点能被shatter,那就说明dvc小于N。所以不能得出结论。
dvc描述的就是对于一个假设集,它的mH(N)能达到2^N的最大的N,mH(N)就是针对N个输入点能做到的最多种二分法。
dvc is the maximum that mH(N)=2^N,and mH(N) is the most number of dichotomies of N inputs
有数个点开始不能被shatter是好事,不能就意味着没有那么多假设,就意味着Ein≈Eout
不能被shatter➡有个breakpoint➡dvc有限
一套证明,dvc=k+1