机器学习之降维方法简介

1、为什么要使用降维?

如果拿特征选择后的数据直接进行模型的训练,由于数据的特征矩阵维度大,会存在数据难以理解、计算量增大、训练时间过长等问题

2、什么是降维?

降维是指把原始高维空间的特征投影到低维度的空间,进行特征的重组,以减少数据的维度。降维与特征最大的不同在于,特征选择是进行特征的剔除、删减,而降维是做特征的重组构成新的特征,原始特征全部“消失”了,性质发生了根本的变化。

3、常见的降维方法有那些?:

1)主成分分析法(PCA)

PCA是最常见的一种线性降维方法,其要尽可能在减少信息损失的前提下,将高维空间的数据映射到低维空间中表示,同时在低维空间中要最大程度上的保留原数据的特点。主成分分析法本质上是一种无监督的方法,不用考虑数据的类标,它的基本步骤大致如下:

(a)数据中心化(每个特征维度减去相应的均值)

(b)计算协方差矩阵以及它的特征值和特征向量

(c)将特征值从大到小排序并保留最上边的N个特征

(d)将高维数据转换到上述N个特征向量构成的新的空间中

2)线性判别分析法(LDA)

LDA也是一种比较常见的线性降维方法,但不同于 PCA 的是,它是一种有监督的算法,也就是说它数据集的每个样本会有一个输出类标。线性判别算法的核心思想是,在把数据投影到低维空间后,希望同一种类别数据的投影点尽可能的接近,而不同类别数据的类别中心之间的距离尽可能的远。也就是说 LDA 是想让降维后的数据点尽可能地被区分开

猜你喜欢

转载自blog.csdn.net/mortal5/article/details/81361422