机器学习基石第十六周笔记

一.Occam’s Razor
这一节将会是最后一节,主要讲解了机器学习中的几个比较经典的原则(锦囊妙计)。
1. 奥卡姆剃刀原则:一个模型越简单越好,将模型不必要的地方最好去掉。
这里写图片描述
那么怎么判断一个模型是不是简单的呢?
首先一个简单的模型一般具有较少的系数。
且一个简单的假设空间是选出一个简单模型的充分非必要条件。
这里写图片描述
那么为什么越简单越好呢?
首先越简单的假设空间的成长函数就越低,这样我们就越不能简单的找到一个h去完美契合一堆杂乱的数据。
但是如果我们能够用着简单的h去契合一堆杂乱的数据,那么说明该数据是有规律的,并不是杂乱的。如果没有规律,那么我们简单的模型不可能完美契合这么杂乱的数据。
相反,如果我们的模型很复杂那么模型总能契合所有的数据,所以这个结果不可信。因为我们不知道到底是找到了规律还仅仅只是刚好契合了结果。
所以我们一般先用简单的模型,且总要反问自己我们是不是过拟合了。
这里写图片描述

二.Sampling Bias
如果我们获取的数据带有偏见,那么我们学习得到的结果也会是带有偏见的结果,所以我们要保证我们获取的训练数据是没有偏见的,比如我们想要调查选举结果,我们就不能只调查上层人士,还要调查中产阶级和无产阶级。

我们在训练一个模型时要保证训练数据和测试数据来自同一个分布,如果训练数据用的 p 1 而用学得的模型来测试 p 2 获取的数据,那么结果只能是惨不忍睹。就好比你让理科生去写小说。
这里写图片描述
下面讲一个林老师本人的反面例子,他对原始数据D进行随机取样,然后将取样结果用作validation的数据,结果发现准确率提高很多,但是实际测试却很差。
这是为什么呢?因为实际测试用的数据并不是原始数据的随机取样,而是偏重于原始数据的最后部分的数据,所以validation数据和test数据不是同分布的,当然结果也就千差万别了。
这里写图片描述
所以我们该怎么办呢?
既然我们的测试资料偏向于后面的数据,那么我们就加大训练资料里面后面数据的权重,在validaton时也尽量使用后面的数据。
这里写图片描述

三.Data Snooping
第三个锦囊妙计就是千万不要偷看数据,比如我们之前讲过的,不要通过肉眼观看数据然后做判断,这样会把我们头脑的复杂度带入。
这里写图片描述
这里写图片描述
上面我们用肉眼偷看是不行的,下面我们用统计数据间接偷看也是不行的。
我们将8年的数据先做归一化将其归一化带0到1之间,然后取前六年作为训练数据,后两年作为测试数据,我们得到红线的结果。
我们只对前6年的数据做归一化,然后用其训练模型,得到模型后在将结果放缩回去,然后再进行测试,我们得到蓝色的线。
我们发现蓝色的线和红色的线差距很大,这时为什么呢?
因为我们在归一化的时候考虑了测试数据的统计特性,比如最大值和最小值,这就相当于我们间接的在训练时使用了测试数据,这会让我们的测试结果不那么可信。
这里写图片描述

假如对同一个训练数据,之前有一个人发了一篇paper,发现H1在这个D上表现的很好,之后它对H1进行改进发现了H2表现的更好,接着又发现H3表现的更好。我们就说它这个H3是不可信的,因为它对数据进行了snooping,它的H3是在H1和H2的基础上得到了。
类似的比喻为:如果我们对一个间谍拷问很久,他就会招供,如果我们对一个资料进行做够久的拷问,,资料也会招供一个很好的h,但是对其他的资料h却不一定有用。
这里写图片描述
所以我们该怎么避免偷看资料呢?
首先我们得明白偷看很难避免。

所以我们能做的就是尽量减少snooping,比如尽量不要用同一个资料来validate你所认为应该适合资料的模型。

尽量避免用资料来做决定,比如不要在看了资料后再决定用什么特征来描述资料。比如我们发现资料里面有很多的重量特征,我们就决定用重量来做特征。这是不行的,可能重量根本就不重要,虽然它在资料里面比重很大。

保持一颗怀疑的心。
这里写图片描述

四.Power of Three
总结:
与机器学习相关的三个领域:
这里写图片描述

三个理论上的保证:
单个的霍夫丁:保证一个h能够学到东西
多个的霍夫丁:保证validation能选择正确的模型
无限的霍夫丁:通过VC维降低到有限的霍夫丁,保证能从H里面学到东西
这里写图片描述

三个线型模型:
这里写图片描述

三个重要的工具:
这里写图片描述

三个锦囊妙计:
这里写图片描述

三个其他的方法学习:
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Du_Shuang/article/details/81810091
今日推荐