一.基本概述
目标:提取最有价值的信息(基于方差)
寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大
当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。
二.优化目标
将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,字段的方差则尽可能大
协方差矩阵:
矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。
协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列。
协方差矩阵对角化:
实对称矩阵:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量
实对称阵可进行对角化:
根据特征值的从大到小,将特征向量从上到下排列,则用前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y
三.pca实例
数据(5个数据,每个数据有两个特征,对两个特征分别进行中心化即相加等于0):
协方差矩阵(参照协方差公式,对角线表达方差,非对角线表达两个特征的关系):
特征值+特征向量:
对角化(特征向量可使协方差矩阵变为对角阵):
降维(积*数据):
积:即较大特征值对应的特征向量进行单位化
降维:降为1维则选择1个较大特征;降为2维则选择2个较大特征