机器学习基石 Lecture4: Feasibility of Learning

Learning is Impossible?

假设有一个实际的面向人的益智问题,给出上面6个例子,判断下方图形对应的y:
在这里插入图片描述
根据不同的规律,可以给出不同的对应函数f。于是最后一张图片也会有相反的结果。比如:
在这里插入图片描述
因此对于这个问题来说没有一个正确的答案。这只是一个引例。那么对于一个实际的机器学习二分类问题,假设有如下的数据样例:
在这里插入图片描述
对于这个问题,由于输入和输出都是有限的,因此可以枚举出所有的实际对应的函数 f f 。如果使用了类似PLA的算法得到一个在训练数据 D D 中都和 f f 的结果一致的结果 g g ,那么是否能够说明这个 g f g\approx f ?可以枚举出所有的 f f ,可以看出得出的 g g 并不一定接近实际函数 f f
在这里插入图片描述
可以看出来并没有一个固定的 g g 能够在 D D 之外确定地接近 f f 。这就是No Free Lunch Theorem,也就是说,在没有限制的情况下,没有一个算法得到的结果能够确定比其它所有算法都好。除非做一定的限制。

Probability to the Rescue

既然很难推断出 D D 之外的 f f 的表现,那么是否可以推断出其他情况下的一些东西呢?比如有一个瓶子里有一些绿色和黄色的弹珠。如果想要推断两种颜色各自所占比例 μ 1 μ \mu 和1-\mu ,那么就可以选择从中采样出 N N 个弹珠观察样本里两种颜色各自所占比例 ν 1 ν \nu 和 1-\nu 。但是样本采样得到的概率 ν \nu 能够说明样本之外的瓶子中玻璃珠所占比例呢?
在这里插入图片描述
根据 Hoeffding’s Inequality,采样的概率与样本外的概率关系为:
在这里插入图片描述
也就是概率 μ \mu 与概率 ν \nu 相等这样的说法有可能是大致正确的(probably approximately correct,PAC)。因此对于比较大的 N N 来说,可以大致通过 ν \nu 来推断 μ \mu

Connection to Learning

而上述不等式与机器学习算法有何关联呢?如下图所示:
在这里插入图片描述
弹珠可以看成样本,假设 h h 的结果是否正确可以对应两种颜色。N个采样可以对应数据集 D D 中的数据样例。类似的,通过较大的采样数量 N N ,可以通过在已知数据集 D D 上的 h h 的正确率来大致估计数据集之外的 h h 相对于 f f 的正确率。也就是:
在这里插入图片描述
但是对于返回一个固定的假设 h h 作为结果 g g 的算法,不能够叫做一个好的学习算法。因为对于数据集 D D 上的错误率 E i n ( h ) E_{in}(h) 比较大的情况时这个 g g (PAC)不等于 f f

因此一个真正的学习算法 A A 需要能够在假设集合 H H 中进行选择得到最终的 g g 而不是返回一个固定的 h h 作为 g g

Connection to Real Learning

在不同的假设函数里进行选择如下图所示,每个 h h 都对应一个 E i n E_{in} 和一个 E o u t E_{out}
在这里插入图片描述
那么一个最重要的问题是,是否在集合 D D 上的例子中错误率最小的假设函数就是最好的假设呢?

假设150个人丢同样的硬币,每个人丢5次。有大于99%的几率会有至少一个人丢出来5次都是正面向上。但是这并不能说明这个人的硬币丢出正面的概率比其它人更大。在这个采样里 E i n E_{in} E o u t E_{out} 相差很远,也就是说这个人的采样是一个比较失败的采样。但是这样的采样对于选择假设函数时影响非常大。只要有比较失败的采样那么算法就不能够按照 E i n E_{in} 进行自由选择不同的假设函数。对于一个假设集合而言,数据集合 D D 只要对其中一个假设函数来说是比较失败的采样,那么它就是失败的。
在这里插入图片描述
假设空间一共有M个假设函数,那么这个假设空间遇到比较坏的采样的概率上限为:
在这里插入图片描述
也就是说,对于比较大的N和有限的M来说,不论是什么样的算法, E i n ( g ) = E o u t ( g ) E_{in}(g)=E_{out}(g) 是有可能大致正确的(PAC)。因此最合理的算法 A A 会选择在数据集 D D 上错误率最小的假设 h h 作为 g g

因此整体的学习过程如下:
在这里插入图片描述
也就是说对于假设空间是有限的情况下,学习是可行的。而一个合理的算法最终会选择一个在 D D 上错误率最小的假设 h h 作为结果 g g 。但是对于假设空间无限大的情况,以后的课上再讲。

猜你喜欢

转载自blog.csdn.net/qq_25037903/article/details/83828151