机器学习基石 Lecture4: Feasibility of Learning

Learning is Impossible?
Probability to the Rescue
Connection to Learning
Connection to Real Learning

Learning is Impossible?

假设有一个实际的面向人的益智问题，给出上面6个例子，判断下方图形对应的y：
在这里插入图片描述
根据不同的规律，可以给出不同的对应函数f。于是最后一张图片也会有相反的结果。比如：

因此对于这个问题来说没有一个正确的答案。这只是一个引例。那么对于一个实际的机器学习二分类问题，假设有如下的数据样例：
在这里插入图片描述
对于这个问题，由于输入和输出都是有限的，因此可以枚举出所有的实际对应的函数 $f$ 。如果使用了类似PLA的算法得到一个在训练数据 $D$ 中都和 $f$ 的结果一致的结果 $g$ ，那么是否能够说明这个 $g\approx f$ ？可以枚举出所有的 $f$ ，可以看出得出的 $g$ 并不一定接近实际函数 $f$ 。
在这里插入图片描述
可以看出来并没有一个固定的 $g$ 能够在 $D$ 之外确定地接近 $f$ 。这就是No Free Lunch Theorem，也就是说，在没有限制的情况下，没有一个算法得到的结果能够确定比其它所有算法都好。除非做一定的限制。

Probability to the Rescue

既然很难推断出 $D$ 之外的 $f$ 的表现，那么是否可以推断出其他情况下的一些东西呢？比如有一个瓶子里有一些绿色和黄色的弹珠。如果想要推断两种颜色各自所占比例 $\mu 和1-\mu$ ，那么就可以选择从中采样出 $N$ 个弹珠观察样本里两种颜色各自所占比例 $\nu 和 1-\nu$ 。但是样本采样得到的概率 $\nu$ 能够说明样本之外的瓶子中玻璃珠所占比例呢？
在这里插入图片描述
根据 Hoeffding’s Inequality，采样的概率与样本外的概率关系为：

也就是概率 $\mu$ 与概率 $\nu$ 相等这样的说法有可能是大致正确的（probably approximately correct，PAC）。因此对于比较大的 $N$ 来说，可以大致通过 $\nu$ 来推断 $\mu$ 。

Connection to Learning

而上述不等式与机器学习算法有何关联呢？如下图所示：
在这里插入图片描述
弹珠可以看成样本，假设 $h$ 的结果是否正确可以对应两种颜色。N个采样可以对应数据集 $D$ 中的数据样例。类似的，通过较大的采样数量 $N$ ，可以通过在已知数据集 $D$ 上的 $h$ 的正确率来大致估计数据集之外的 $h$ 相对于 $f$ 的正确率。也就是：
在这里插入图片描述
但是对于返回一个固定的假设 $h$ 作为结果 $g$ 的算法，不能够叫做一个好的学习算法。因为对于数据集 $D$ 上的错误率 $E_{in}(h)$ 比较大的情况时这个 $g$ （PAC）不等于 $f$ 。

因此一个真正的学习算法 $A$ 需要能够在假设集合 $H$ 中进行选择得到最终的 $g$ 而不是返回一个固定的 $h$ 作为 $g$ 。

Connection to Real Learning

在不同的假设函数里进行选择如下图所示，每个 $h$ 都对应一个 $E_{in}$ 和一个 $E_{out}$ ：
在这里插入图片描述
那么一个最重要的问题是，是否在集合 $D$ 上的例子中错误率最小的假设函数就是最好的假设呢？

假设150个人丢同样的硬币，每个人丢5次。有大于99%的几率会有至少一个人丢出来5次都是正面向上。但是这并不能说明这个人的硬币丢出正面的概率比其它人更大。在这个采样里 $E_{in}$ 和 $E_{out}$ 相差很远，也就是说这个人的采样是一个比较失败的采样。但是这样的采样对于选择假设函数时影响非常大。只要有比较失败的采样那么算法就不能够按照 $E_{in}$ 进行自由选择不同的假设函数。对于一个假设集合而言，数据集合 $D$ 只要对其中一个假设函数来说是比较失败的采样，那么它就是失败的。
在这里插入图片描述
假设空间一共有M个假设函数，那么这个假设空间遇到比较坏的采样的概率上限为：

也就是说，对于比较大的N和有限的M来说，不论是什么样的算法， $E_{in}(g)=E_{out}(g)$ 是有可能大致正确的（PAC）。因此最合理的算法 $A$ 会选择在数据集 $D$ 上错误率最小的假设 $h$ 作为 $g$ 。

因此整体的学习过程如下：
在这里插入图片描述
也就是说对于假设空间是有限的情况下，学习是可行的。而一个合理的算法最终会选择一个在 $D$ 上错误率最小的假设 $h$ 作为结果 $g$ 。但是对于假设空间无限大的情况，以后的课上再讲。