PCA降维&&奇异值分解SVD

PCA降维

涉及高维数据的问题容易陷入维数灾难,随着数据集维数的增加,算法学习所需的样本数量呈指数级增加,且需要更多的内存和处理能力,消耗资源。主成分分析也称为K-L变换,常用于高位数据预处理和可视化。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分。原理就是PCA将高维具有相关性的数据进行线性变换映射到一个低维子空间,尽可能多的保留更多变量(代表原特征),降维成一个线性无关的低维数据集。当数据集不同维度上的方差分布不均匀的时候,PCA最有用。选取方差最大的方向作为第一个主成分,第二个主成分选择方差次大的方向,并且与第一个正交。

方差:度量一组数据分散的程度;

协方差:度量两个变量的变动的同步程度,即度量两个变量线性相关性程度

特征值和特征向量,矩阵的主成分是由其协方差矩阵的特征向量按照对应的特征值大小排序得到的,最大的特征值就是第一主成分,第二大特征值就是第二主成分。

计算数据的主成分可以用计算数据协方差的方法和矩阵奇异值分解SVD的方法。

应用:人脸识别中特征脸的构造用到了PCA降维,对于样本少,特征维数高的时候特别适用。

奇异值分解SVD

奇异值分解将矩阵分解成若干个秩一矩阵(矩阵的秩为1)之和。奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关,奇异值分解可以应用于图像处理,数据压缩,图像去噪。

奇异值分解的几何意义:对于任意一个矩阵,我们要找到一组两两正交单位向量序列,使得矩阵作用在此向量序列上后得到新的向量序列保持两两正交,奇异值为变换后新的向量序列的长度。通俗一点的:将一组正交基映射到另一组正交基(旋转、拉伸、投影)。



猜你喜欢

转载自blog.csdn.net/u013185349/article/details/81052420