机器学习----维数灾难

一、定义

                随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降
这里写图片描述
                也许分类器准确率依然无法达到要求,加入更多的特征,比如颜色、纹理的统计信息等等,如此下去,可能会得到上百个特征。那是不是我们的分类器性能会随着特征数量的增加而逐步提高呢?答案也许有些让人沮丧,事实上,当特征数量达到一定规模后,分类器的性能是在下降的。随着维度(特征数量)的增加,分类器的性能却下降了

二、维数灾难和过拟合

                我们假设猫和狗图片的数量是有限的(样本数量总是有限的),假设有10张图片,接下来我们就用这仅有的10张图片来训练我们的分类器。

这里写图片描述

                从1维到3维,给我们的感觉是:维数越高,分类性能越优。然而,维数过高将导致一定的问题:在一维特征空间下,我们假设一个维度的宽度为5个单位,这样样本密度为10/5=2;在2维特征空间下,10个样本所分布的空间大小5*5=25,这样样本密度为10/25=0.4;在3维特征空间下,10个样本分布的空间大小为5*5*5=125,样本密度就为10/125=0.08.

过多的特征导致的过拟合现象:训练集上表现良好,但是对新数据缺乏泛化能力

高维空间训练形成的线性分类器,相当于在低维空间的一个复杂的非线性分类器,这种分类器过多强调了训练集的准确率甚至于对一些错误/异常的数据也进行了学习,而正确的数据却无法覆盖整个特征空间。为此,这样得到的分类器在对新数据进行预测时将会出现错误。这种现象称之为过拟合,同时也是维灾难的直接体现。这里写图片描述

这里写图片描述
这里写图片描述
                                                        这里写图片描述
            如果能获取无限多的样本,就可以从无限多的特征构造出完美的分类器。如果训练样本较少,那就要采用较少的特征训练分类器。如果N个样本足以覆盖单位长度的一维空间,那么在二维和三维空间上就需要N^2和N^3个样本才能达到与一维空间相同的密度分布。即训练样本的数量和特征的维数呈指数关系。

            具有非线性决策边界的分类器(如神经网络,KNN,决策树)泛化能力较差,更容易过拟合。因此应该在低维度的特征空间上使用非线性分类器。如果分类器比较简单,如朴素贝叶斯和线性分类器,则可以采用较多的特征训练分类器。图6展示了在高维空间中使用简单分类器,在低维空间使用复杂分类器。

            例如估计高斯概率密度函数,其参数为均值和方差。在三维空间中协方差矩阵是3X3的,它其中有6个独立的元素,对角线上的三个方差元素和上三角上的三个协方差元素,再加上三个均值,共9个元素,这意味这在3维空间中需要估计9个参数。而在1维空间中只要估计两个参数。在二维空间中只要估计5个参数。这再次表明,随着特征维度的增加需要估计更多的参数,才能描述出模型的完整性

猜你喜欢

转载自blog.csdn.net/sakura55/article/details/80991668