Lecture 6:Theory of Generalization

Restriction of Break Point

先回顾一下上节课内容，主要讲的是Hoeffding不等式当中的 $M$ 如果很大，那么不能保证 $E_{in}\approx E_{out}$ ,也就是说机器学习泛化能力不好。所以我们需要验证 $M$ 是有限的，最好是按照多项式成长。从而引入了Break Point与Growth Function两个概念

上节课最后提出了一个猜想：2D Perceptrons的成长函数是多项式级别的。
在这里插入图片描述

这个例子是说，Break Point k=2,当 $N = 3$ 时，成长函数的最大值是多少。

具体过程见课程的PPT，做法大致是每添加一种dichotomy，都要确保3个点中的任意两个不会被shatter，否则就违反了 $k = 2$ 的前提。最终答案是4.

（在B站看视频弹幕里还有不少不理解shatter的，shatter就是如果假设的集合能将N个点分成 $2^N$ 种二分类，那么这个假设集合就能shatter这N个点）

我们发现，当 $N > k$ 时，break point限制了成长函数值的大小，那么如果给出 $N$ 和 $k$ ，如果能够证明成长函数值的上界是多项式的，就能够在Hoeffding不等式中代替 $M$ ,从而说明机器学习是可行的。
在这里插入图片描述

Bounding Function: Basic Cases

引入一个函数Bounding Function $B (N, k)$ :当break point为k的时候，成长函数 $m_H(N)$ 可能的最大值，也就是 $m_H(N)$ 的上界。

上界函数不考虑假设集的组成，只关心成长函数的上界，从而对问题进行了简化，比如说，positive intervals和2D Perceptrons的成长函数上界都可以用 $B (N, 3)$ 表示。

引入这个函数后，我们的目标也就成了证明这个函数的上界是多项式的：

在这里插入图片描述

求解这个函数：

$k = 1, B (N, 1) = 1$
$N<k,B(N,K)=2^N$
$N=k,B(N,k)=2^{N}-1$

这几个都是根据定义得到的，如果k=1，成长函数值一定为1，因为随便增加一个假设都能够shatter这一个点，不符合break point的定义

当 $N = k$ 时，此时第一次出现不能被shatter的情况，所以最大为 $2^N-1$ (shatter的定义)

Bounding Function: Inductive Cases

剩下 $N > k$ 的情况：

以 $B (4, 3)$ 为例，首先想着能否构建 $B (4, 3)$ 与 $B (3, ?)$ 之间的关系

把 $B (4, 3)$ 所有情况写出来一共有11种：

在这里插入图片描述

把这11种分为两种，第一种用下图橙色表示（ $x_1~x_3$ 完全相同， $x_4$ 相反的两个为一组）；第二种用下图紫色表示（其他单个的）：
在这里插入图片描述

如果先不考虑 $x_4$ ，那么橙色部分得到 $\alpha$ 个，紫色部分得到 $\beta$ 个二分类，这些肯定是任意3个都不能被shatter的，也就是说
$\alpha + \beta \leq B(3,3)$
在这里插入图片描述

由于 $\alpha$ 中 $x_4$ 成对存在（已经被shatter），而 $x_1~x_4$ 中任意三点不能被shatter,所以 $x_1~x_3$ 中任意两点不能被shatter，即：
$\alpha \leq B(3,2)$
在这里插入图片描述

所以，最后得到：
$\begin{aligned} &B(4,3)=2\alpha + \beta\\\\ &\alpha + \beta \leq B(3,3)\\\\ &\alpha \leq B(3,2)\\\\ &\Rightarrow B(4,3)=(\alpha+\beta)+\alpha\leq B(3,3)+B(3,2) \end{aligned}$
更一般的：