机器学习从入门到创业手记-主成分分析与谁是关键因素

主成分分析是统计方法里的一种降维方法,它的主要思想是将原有N个特征通过正交变换将一组可能存在相关性的特征缩减到K特征(K<=N)       。

 

高维:定义好抽象呀,能解释一下么?

 

路思:我们先从二维情况理解一下定义,假设原始数据中有下单量和成交量呈现出正相关的关系,我用图2.2.3.1解释一下这个过程,这里假设该图假设这是一个二维数据,即只有两个变量,分别由横纵坐标代表,这些数据的分布是个椭圆形的点阵,那么我们能得到椭圆的一个长轴和短轴,在短轴方向上可以看到数据的变化幅度不大,那么将变化不明显的短轴退化成没有幅度变化时,这样数据只有在长轴上有变化,这样二维数据就降维到一维了,我们把长轴u1称为主成分方向,在二维空间中取和u1方向具有最大方差的正交的的方向就是u2方向,u2则是我们选择出的第二个主成分,以此类推。

 

 

图2.2.3.1

 

高维:恩,也就是说比如商品评价满意度可以分为快递满意度,商品满意度两个属性决定,我使用PCA后,可能得到的是这样一个属性就可以决定商品评价满意度了吧

 

       路思:是的,从PCA定义看多属性时,PCA主成分对最终结果的影响是按照从大到小被计算出来的,也就是第一个计算出来的是第一主成分,是最关键的第一因素,第二主成分要稍微弱一些,以此类推。

猜你喜欢

转载自blog.csdn.net/yoki2009/article/details/88530869