主成分分析及应用

PCA是一种统计方法,常用于解决数据降维、算法加速和数据可视化等问题,背后的数学工具是SVD。

一、主成分分析的内涵

通过正交变换将一组个数较多的、彼此相关的、意义单一的指标变量转化为个数较少的、彼此不相关的、意义综合的指标变量。转换后的这组

变量叫主成分。

二、关于降维

1.必要性

(1)多重共线性——预测变量间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。

(2)高维空间本身具有稀疏性。一维正态分布有68%的值落在正负标准差之间,而在十维空间上只有0.02%。

(3)过多的变量会妨碍查找规律的建立。

(4)仅在变量层面上分析可能会忽略变量间的潜在联系。

2.目的

(1)减少预测变量的个数

(2)确保这些变量相互独立

(3)提供一个框架来解释结果

3.方法

(1)PCA(2)因子分析(3)用户自定义复合

三、基本原理

将彼此相关的变量转变为彼此不相关的变量;方差较大的几个新变量就能综合反映原多个变量所包含的主要信息;新变量各自带有独特含义。

四、预备知识

计算协方差矩阵通常用以下简化方法:先让样本矩阵中心化,即每一维度减去该维度的均值,然后直接用得到的样本矩阵乘上它的转置,再除以N-1

猜你喜欢

转载自www.cnblogs.com/chenxuanzhen/p/9827209.html