Lecture 7:The VC Dimension

Definition of VC Dimension

定义：VC Dimension $d_{vc}=k-1$ ,其中k是之前提到的break point

也就是指假设集合 $\mathcal H$ 最大能够shatter的点的个数

在这里插入图片描述

再来回顾下之前介绍过的例子：

在这里插入图片描述

如果一个假设集合的 $d_{vc}$ 确定了之后，那么能保证能够进行机器学习的第一个条件 $E_{in}\approx E_{out}$ ，与算法选择、数据分布和目标函数都没有关系

在这里插入图片描述

（这一部分大概就是把之前讲过的东西重新定义了一下）

VC Dimension of Perceptrons

在这里插入图片描述

回顾之前介绍的2D PLA，这个算法的可行性其实有两条线，分别对应两个条件：

如果数据集是线性可分的，那么PLA是能够停止的，如果经历足够多的迭代次数，那么最终会找到理想假设 $g,E_{in}(g)=0$
如果 $N$ 足够大，而且2D Perceptron存在 $d_{vc}=3$ ,根据之前介绍的理论，是能够保证 $E_{out}(g)\approx E_{in}(g)$ 的

这是在2D情况下，如果在更高维度的情况下， $d_{vc}$ 是多少？

猜想：感知机输入样本维度为 $d$ ,则 $d_{vc}=d+1$

证明：

$d_{vc}\geq d+1$

假设每一个输入都是 $d$ 维的，我们只要能找到某种 $d + 1$ 个输入的组合可以被shatter,那么就能证明 $d_{vc}\geq d+1$ （这个根据 $d_{vc}$ 的定义就能知道），所以我们就构造这样一个输入：
在这里插入图片描述

这个矩阵有 $d + 1$ 个输入组成，每个输入在原来基础上在第0维加上常数项1（这就是之前讲2D Perceptron的 $x_0$ ，也就是threshold）

这个矩阵显然是可逆的，也就是说所有的 $d + 1$ 个输入都能被shatter，第一个不等式就证明了

为什么说输入矩阵可逆就等同于这些输入能被shatter？我们说两个点被shatter,就是说假设集能够将这两个点分成（1，1），（1，-1），（-1，1），（-1，-1）四种结果

分类的结果可以看作一个向量 $y=(y_1,y_2,...,y_n)^T$ ,如果矩阵可逆，那么对任意一个向量 $y$ ，总能找到 $w=X^{-1}y$ ，也就是所有分类结果都能通过假设集得到，这就说明矩阵中的这 $d + 1$ 个输入能被shatter

$d_{vc}\leq d+1$

如果对任意 $d + 2$ 个输入，都不能被shatter,那么不等式就成立。

构造一个任意的矩阵 $X$ ,包含 $d + 2$ 个输入，每个输入都是 $d + 1$ 维，那么这些输入向量一定是线性相关的（ $n + 1$ 个 $n$ 维向量一定是线性相关的），也就是说某个输入向量可以用其余向量表示，然后等式两边同乘 $w^T$ ，该输入的正负也随之确定，不存在可正可负两种可能，所以这些输入是无法被shatter的