机器学习基石(林轩田)第七章 笔记与感悟总结

7.1 VC尺寸 - VC尺寸的定义

我们上个周证明了艾因约等于Eout的,即测试的表现和训练的表现相似。

在成长函数在某个地方有break point和N足够大的时候。

意义在于之后介绍的VC维度。

我们以后就不用B(N,k)的的这种麻烦的写法了,只需要使用NR个(K-1)这种简单的写法。因为N^(K-1)是最大的上限。



vc bound,在我们H set中有h发生坏事情的概率很小,无论我么选择什么g,发生坏事情的概率都很小。

几个条件,让我们的学习可以做的到。

1)有ķ

2)N足够大

3)好的演算法,使恩波较小

我们还需要好一点的运气。



VC Dimension试图将个别最大的K,的前一个位置,的正式名称。

当数据N小的时候,有可能被破碎掉,即出现K = 2,(XX,oo,XO,ox)的情况。

当N大的时候,实际上Ñ等价于K,这里我没太懂?为什么一定不能被shatter?????



这里看最后的2D情况,为什么是三个点?四个点肯定不能破碎,因为四个点的有效(N)只有14种,没有到达16种。


但是三种也有可能是下图的6种情况啊

原因在于取下图的最大可能的有效值。



有限的vc D有什​​么好处?

如下图三句英语1)与演算法无关,即便糟糕的演算法导致Ein很大,它也能确保Ein约等于Eout,

2)与资料是如何分布无关

3)与未知的目标˚F无关




7.2 VC维度 - 感知器的VC维度

二维平面(X1,X2)

线性可分,最后如果能收敛,Ein为0。

对于2D Perceptron,我们知道它的dvc = 3。如果资料够大的话,就能得到结论。

弹幕:这里的VC维是3数据的维数是2也就是常说的2分类是这个意思吧?

答:是吧

PLA能用在多维,不只是二维的数据点。怎么证明呢?

1维dvc = 2

2维dvc是3

猜想Dvc = d + 1


我们只要找到一组资料,为d + 1笔。这一大笔资料能被假设设定给粉碎掉,说明dvc> = d + 1


2D有(0,0)(1,0),(0,1)这三个点


注意到X的逆矩阵存在!

那么存在有什么意义呢?,

回忆shatter的意义,我们给任何一种xxoo的y时,我们总能找到一个w与X相乘能够等于y

结论是我们能找到一个特殊的X,使之能够被粉碎推导出dvc> = d + 1





原本我们三个点能够粉碎,但是多了一个点,变成4个点就不行。

我们证明了X4一定要是OO


也就是说,今天我们把X4表示成其他三个向量的线性组合时,这个线性依赖的关系会限制二分法产生的数量。


 

正因为d + 2这一个向量可以用前d + 1个表示,前d + 1个确定了最后一个也就确定了,这样所有的d + 2个向量永远也不能遍历所有情况


7.3 VC维度 - VC维度的物理直觉

d + 1实际上就是感知器的维度.dvc = d + 1,例如2D Perceptron的dvc是3

这些假说

vc D对于二分类的有效的自由度。

衡量这个自由度,告诉我们这个假设设定到底能够产生多少二分法。

定义模型自由度是,模型当中可以自由变动的参数的个数,即我们的机器需要通过学习来决定模型参数的个数。



Positive rays有一个可以调的“旋钮”,这个旋钮是a

正面间隔有两个可以调的旋钮。

DVC表示我们大概可以由多少旋钮。


d + 1是WT矩阵的秩,也就是WT矩阵的最大线性无关组的维数。

感谢楼上!!听懂了...... X·Wt = y X数据是N维,X | Y就是N + 1维,所以Wt也就是N + 1维,Dvc就是Wt的满秩情况...所以是N +1

打碎的意思也就是说有些W效果是一样的,跟其他W是线性相关的





7.4 VC维度 - 解释VC维度


算出了Eout的的最坏的情形是多少。我们也只关注最坏的情形。

我们讲根号里的叫做模型复杂性

我们的ħ有多么的强,大家就是Ω那么多。

其中括号里的ħ代表的是DVC


很高的几率,Eout的的要小于Ein+Ω()

这就是过拟合的理论依据吧




神奇的结论,实际上只要10倍的资料就能够达到我们的要求。而理论上高速我们要10000倍的DVC才能达到要求。





解读机器学习基础概念:VC维的来龙去脉







猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80450851
今日推荐