一、定义

$~~~~~~~~$ 随着维度的增加，分类器性能逐步上升，到达某点之后，其性能便逐渐下降
这里写图片描述
$~~~~~~~~$ 也许分类器准确率依然无法达到要求，加入更多的特征，比如颜色、纹理的统计信息等等，如此下去，可能会得到上百个特征。那是不是我们的分类器性能会随着特征数量的增加而逐步提高呢？答案也许有些让人沮丧，事实上，当特征数量达到一定规模后，分类器的性能是在下降的。随着维度(特征数量)的增加，分类器的性能却下降了。

二、维数灾难和过拟合

$~~~~~~~~$ 我们假设猫和狗图片的数量是有限的(样本数量总是有限的)，假设有10张图片，接下来我们就用这仅有的10张图片来训练我们的分类器。

这里写图片描述

$~~~~~~~~$ 从1维到3维，给我们的感觉是：维数越高，分类性能越优。然而，维数过高将导致一定的问题：在一维特征空间下，我们假设一个维度的宽度为5个单位，这样样本密度为10/5=2;在2维特征空间下，10个样本所分布的空间大小5*5=25，这样样本密度为10/25=0.4;在3维特征空间下，10个样本分布的空间大小为5*5*5=125，样本密度就为10/125=0.08.

过多的特征导致的过拟合现象：训练集上表现良好，但是对新数据缺乏泛化能力

高维空间训练形成的线性分类器，相当于在低维空间的一个复杂的非线性分类器，这种分类器过多强调了训练集的准确率甚至于对一些错误/异常的数据也进行了学习，而正确的数据却无法覆盖整个特征空间。为此，这样得到的分类器在对新数据进行预测时将会出现错误。这种现象称之为过拟合，同时也是维灾难的直接体现。这里写图片描述

这里写图片描述

$~~~~~~~~~~~~~~~~~~~~~~~~~~~~$
$~~~~~~$ 如果能获取无限多的样本，就可以从无限多的特征构造出完美的分类器。如果训练样本较少，那就要采用较少的特征训练分类器。如果N个样本足以覆盖单位长度的一维空间，那么在二维和三维空间上就需要N^2和N^3个样本才能达到与一维空间相同的密度分布。即训练样本的数量和特征的维数呈指数关系。

$~~~~~~$ 具有非线性决策边界的分类器（如神经网络，KNN，决策树）泛化能力较差，更容易过拟合。因此应该在低维度的特征空间上使用非线性分类器。如果分类器比较简单，如朴素贝叶斯和线性分类器，则可以采用较多的特征训练分类器。图6展示了在高维空间中使用简单分类器，在低维空间使用复杂分类器。

$~~~~~~$ 例如估计高斯概率密度函数，其参数为均值和方差。在三维空间中协方差矩阵是3X3的，它其中有6个独立的元素，对角线上的三个方差元素和上三角上的三个协方差元素，再加上三个均值，共9个元素，这意味这在3维空间中需要估计9个参数。而在1维空间中只要估计两个参数。在二维空间中只要估计5个参数。这再次表明，随着特征维度的增加需要估计更多的参数，才能描述出模型的完整性。

机器学习----维数灾难

一、定义

二、维数灾难和过拟合

猜你喜欢