降维算法一:PCA主成分分析

一.基本概述

目标:提取最有价值的信息(基于方差)

寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大

当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

二.优化目标

将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,字段的方差则尽可能大

协方差矩阵:

  

矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。

协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列。

协方差矩阵对角化:

 

实对称矩阵:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量

实对称阵可进行对角化:

 

根据特征值的从大到小,将特征向量从上到下排列,则用前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y

三.pca实例

数据(5个数据,每个数据有两个特征,对两个特征分别进行中心化即相加等于0):

         

协方差矩阵(参照协方差公式,对角线表达方差,非对角线表达两个特征的关系):

           

特征值+特征向量:

         

          

对角化(特征向量可使协方差矩阵变为对角阵):

降维(积*数据):

   积:即较大特征值对应的特征向量进行单位化

   降维:降为1维则选择1个较大特征;降为2维则选择2个较大特征

猜你喜欢

转载自www.cnblogs.com/xyp666/p/9216447.html