【台大林轩田《机器学习基石》笔记】Lecture 4——Feasibility of Learning

Lecture 4:Feasibility of Learning

Learning is Impossible?

在这里插入图片描述

考虑上图的例子,3个分类为-1的九宫格和3个分类为+1的九宫格,对最下方的九宫格根据上面的6个样本的规律进行分类:

  • 按照对称图形为+1类,非对称图形为-1类,那么最下方的例子分类为+1
  • 按照左上角是黑色为-1类,左上角为白色为+1类,那么待分类九宫格被分成-1类

看起来这两种分类方法都是合理的,因为就训练集中的六个九宫格而言,这些分类方法都取得很好的效果

在这里插入图片描述
在这里插入图片描述

这个例子中 f 1 — — f 8 f_1——f_8 f1f8是8个假设,显然这八个假设在训练集(前五个x)上都取得了完全正确的分类结果,但是对于另外三个测试数据,这些假设的结果之间存在差异

也就是说,我们任选一个假设 g = f i g=f_i g=fi,它在训练集上的效果满足 g ≈ f g\approx f gf,但是测试未知数据时, g ≈ f g\approx f gf不一定成立,而我们进行机器学习的目的就是希望学习到的模型能够在未知数据的预测上有较好的结果,而不是简单的拟合已知数据集。

这个例子也告诉我们机器学习的一个特性:“没有免费的午餐”定理,简言之,也就是说没有一种机器学习算法是适用于所有情况的。机器学习算法无法保证在训练集 D \mathcal D D之外的数据集上能够取得好的结果,除非加一些假设条件。

Probability to the Rescue

上一小节得出结论是:在严格的条件下机器学习是无法保证正确预测或者分类的,那么是否有一些工具可以让我们对未知的 f f f做一些推论?
在这里插入图片描述

假设有一个装有无数个橙色球与绿色球的罐子,如何推断其中橙色球占比?

按照统计学的做法:从罐子中取样N个球,计算这N个球当中橙色的比例,就估计出整个罐子中橙色球的比例。
在这里插入图片描述

抽到的样本中橙色球占比不能说与整个罐子橙色球占比一样,但是二者很可能是非常接近的
在这里插入图片描述

从上图中的Hoeffding不等式中可以看出,当N很大时, v v v μ \mu μ相差大于 ϵ \epsilon ϵ的概率很小,这时候得到的结论 v = μ v=\mu v=μ被称为PAC.

Connection to Learning

把这个例子与机器学习的概念相联系:

  • 机器学习中假设 h ( x ) h(x) h(x)与目标函数 f f f相等的可能性类比于罐子中橙色球比例
  • 罐子里的一个个球类比于机器学习的样本空间的一个个 x ∈ X x\in \mathcal X xX
  • 橙色球类比假设 h ( x ) h(x) h(x) f ( x ) f(x) f(x)不相等
  • 绿色球类比假设 h ( x ) h(x) h(x) f ( x ) f(x) f(x)相等
  • 从罐子中抽的N个球代表机器学习的训练样本
  • 两种样本都是独立同分布的

如果N足够大,并且是独立同分布的,那么从样本中 h ( x ) ≠ f ( x ) h(x)\ne f(x) h(x)=f(x)的概率就能推导抽样样本外的所有样本中 h ( x ) ≠ f ( x ) h(x) \ne f(x) h(x)=f(x)的概率

在这里插入图片描述

下图更新了机器学习的流程图,从样本空间 X \mathcal X X中取样 N N N个样本作为训练集,然后使用训练集中的样本对假设 h h h与目标 f f f一致进行衡量。
在这里插入图片描述

上图中的 E o u t E_{out} Eout指在整个样本空间上 h h h f f f不相等的概率, E i n E_{in} Ein指在抽样样本中二者不相等的概率。

根据Hoeffding不等式:
在这里插入图片描述

如果能够保证 E i n E_{in} Ein很小,那么就能推断出 E o u t E_{out} Eout很小,也就是在该数据分布下假设与目标很接近。

之前的分析不能算真正的学习过程,因为都是在一个固定的假设函数 h h h上进行的,这更像是对于 h h h的验证过程。真正的学习中如果一直选择 h h h,那么可能出现 E i n E_{in} Ein较大的情况,所以学习过程要能在假设集合中选出最优的 g g g,而不是选择固定的一个 h h h

在这里插入图片描述

验证过程的流程图:

在这里插入图片描述

Connection to Real Learning

在这里插入图片描述

假设现在有 M M M个假设,其中有一个在训练样本上全对,那要不要选择这个假设?

举个栗子:150人抛硬币,每人抛五次,至少有一个人五次都是正面朝上的概率是:(1-150个人都至少有一次反面朝上的概率)
1 − ( 31 32 ) 150 > 99 % 1-(\frac{31}{32})^{150}>99\% 1(3231)150>99%
这个概率是很大的,类比一下,如果有很多的假设,有一个假设在训练样本上全对的概率是很大的,但你不能说这个假设在全部样本上都能得到正确结果。

Hoeffding不等式保证了大多数情况下抽取的样本和所有的样本分布是差不多的( E i n E_{in} Ein E o u t E_{out} Eout相差不大),但是也有可能出现不好的情况,也就是BAD Sample
在这里插入图片描述

下图可能更直观, D i D_i Di是抽样得到的数据集,Hoeffding不等式保证的是每一行不会有太多的格子是BAD

在这里插入图片描述

对于存在多个假设的情况,只要 D i D_i Di在某个假设上属于BAD Data,那么 D i D_i Di就是BAD Data

我们现在想知道的是,选到不好的Data的几率是多少:
在这里插入图片描述

上图说明,当M有限,且N足够大的时候,Bad Data出现的概率就会很低,在这种情况下,就可以选择一个合理的算法 A \mathcal A A,算法选择 E i n E_{in} Ein最小的假设作为 g g g,这样就能保证 E o u t E_{out} Eout足够小,证明机器学习是可行的。
在这里插入图片描述

Summary

这节课主要介绍了机器学习的可行性,讨论问题是否可以使用机器学习解决。

首先通过NFL定理,说明不加条件的机器学习是没法做到的

然后通过一些统计学上的假设,说明了对于一个固定的 h h h,如果取样数 N N N足够大,能保证 E i n ≈ E o u t E_{in}\approx E_{out} EinEout,但是如果存在多个假设,那么对于另外一个假设就不一定满足 E i n ≈ E o u t E_{in}\approx E_{out} EinEout

最后对于多个 h h h的情况下,只要保证假设数量有限且 N N N足够大,就能保证算法选择的 g g g是满足 E i n ≈ E o u t E_{in}\approx E_{out} EinEout的(也就是选中BAD Data的概率足够小),如果再加上 E i n ≈ 0 E_in\approx 0 Ein0,则说明了机器学习是可行的。

下,只要保证假设数量有限且 N N N足够大,就能保证算法选择的 g g g是满足 E i n ≈ E o u t E_{in}\approx E_{out} EinEout的(也就是选中BAD Data的概率足够小),如果再加上 E i n ≈ 0 E_in\approx 0 Ein0,则说明了机器学习是可行的。

猜你喜欢

转载自blog.csdn.net/i0o0iW/article/details/112720480