VC维（VC Dimension）

定义

VC Dimension：全称是Vapnik-Chervonenkis dimension。其用来衡量一个模型的复杂度，定义为：在该模型对应的空间中随机撒x点，然后对其中的每个点随机分配一个2类标签，使用你的模型来分类，并且要分对，请问x至多是多少。这个x就是VC维。

例子

1.线性函数

如果选用二维空间中的直线作为判别函数，该分类模型的VC维是多少？
答案：3
解释：如果是3个点，无论如何随机的打标签，都存在一条直线都可以将两类样本分开。
如果是4个点，就可能会出现一种标签序列，使得不存在一条直线将两类样本分开。如下图。
在这里插入图片描述

如果选用三维空间中的直线作为判别函数，该分类模型的VC维是多少？
答案：4
总结：
在这里插入图片描述

2.正弦函数

如果选用一维空间中的正弦函数作为判别函数，该分类模型的VC维是多少？
答案： $\infty$
解释：我们总是可以调节相位和周期来使得对任意给定的样本点数量，任意的标签序列，将其分对。
在这里插入图片描述
比如调节b,a使得如下图，浅蓝色的点在函数的下面，深蓝色的点在函数上面。（画得不标准哈~~）。

3.最近邻模型

在任意空间使用最近邻分类器，该分类模型的VC维是多少？
答案： $\infty$
解释：无论你给定多少个样本点，设为 $q$ 个，然后怎样地随机分配标签，设分配完毕后，正类有 $m$ 个，负类有 $n$ 个。我都可以设计一个如下分类器，将这些有标签的样本保存下来，正类标签样本集合为： ${x_1,x_2,...x_m}$ ，负类标签样本集合为： ${y_1,y_2...y_n}$ ，然后对这 $q$ 个样本进行分类，以 $x_i$ 为例，我们使用最近邻分类器，发现 $x_i$ 离我们保存的 $x_i$ 距离为0，那么判别其为正类。其他依次类推，总之，全部可以分对。

另外，作为补充，我们发现，如果将最近邻分类器变成K近邻分类器，VC维会降低，这个留给你做思考，很简单地~。
在这里插入图片描述