PCA(principal Component Analysis) 主成分分析

PCA(principal Component Analysis) 主成分分析

本文解决以下疑问:

1、什么是PCA?

2、为什么要求最大特征值?

3、为什么要投影到对应的特征向量?

——————————————————————————————————————————

1、什么是PCA?

有两种经常使⽤的PCA的定义,它们会给出同样的算法。这里讲第一种定义。

PCA可以被定义为数据在低维线性空间上的正交投影,这个线性空间被称为主⼦空间(principal subspace),使得投影数据的⽅差被最⼤化(Hotelling, 1933)。等价地,它也可以被定义为使得平均投影代价最⼩的线性投影。平均投影代价是指数据点和它们的投影之间的平均平⽅距离(Pearson, 1901)

这里写图片描述

这里写图片描述

2、为什么要求最大特征值?

这里写图片描述

此处的求偏导根据《Matrix cookbook》中公式:
这里写图片描述
这里写图片描述
这就是为什么我们需要选取特征值最大的原因,都是由定义所推导出来的

3、为什么要投影到对应的特征向量?

PCA的初衷,就是找到一个变换使得坐标系旋转的效果能够实现削弱相关性或将主要信息集中在少数几个维度上这一任务


参考书籍:
《PRML》、《Matrix cookbook》

猜你喜欢

转载自blog.csdn.net/silenthill1/article/details/81780610