主成分(PCA)降维

主成分降维:
主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成
另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换
中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二
变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,个变量
就有个主成分。
其中维正交化向量(),之间互不相关且按照方差由大到小排列,
则称的第个主成分。设的协方差矩阵为,则必为半正定对称矩阵,求特
征值(按从大到小排序)及其特征向量,可以证明,所对应的正交化特征向量,
即为第个主成分所对应的系数向量,而的方差贡献率定义为,通常要求
提取的主成分的数量满足

基本思想
PCA的基本原理就是将一个矩阵中的样本数据投影到一个新的空间中去。对于一个矩
阵来说,将其对角化即产生特征根及特征向量的过程,也是将其在标准正交基上投影
的过程,而特征值对应的即为该特征向量方向上的投影长度,因此该方向上携带的原
有数据的信息越多

目的
希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变
量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部
分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。

分析步骤
将原始数据按行排列组成矩阵
进行数据标准化,使其均值变为零
的协方差矩阵C
将特征向量按特征值由大到小排列,取前个按行组成矩阵
通过计算,得到降维后数据
用下式计算每个特征根的贡献率;
根据特征根及其特征向量解释主成分物理意义。

基于主成分分析的指标筛选原理
(1)因子载荷的原理
通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝
对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要。
(2)基于主成分分析的指标筛选原理
因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示
指标对评价结果越重要,越应该保留;反之,越应该删除。1通过对相关性分析
筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小
的指标,保证筛选出重要的指标。

猜你喜欢

转载自blog.csdn.net/hllingg/article/details/85340056
今日推荐