PCA 原理

转载自here
深度学习中自编码（AutoEncoder）(也是无监督学习，因为不需要y标签)已经超越了PCA，也是降维的效果

1.数据向量表示及降维问题

举个例子:
假如某学籍数据有两列M和F，其中M列的取值是如何此学生为男性取值1，为女性取值0；而F列是学生为女性取值1，男性取值0。此时如果我们统计全部学籍数据，会发现对于任何一条记录来说，当M为1时F必定为0，反之当M为0时F必定为1。在这种情况下，我们将M或F去掉实际上没有任何信息的损失，因为只要保留一列就可以完全还原另一列。

只是个例子,但是操作不具有指导意义.例如我们应该删除哪一列.

2.向量的表示及基变换

既然我们面对的数据被抽象为一组向量.
一般的,如果我么有M 个N维向量,想将其变换微由R个N维向量表示的新空间中,那么首先将R 个基按行组成矩阵A ,然后将向量按照列组成矩阵B ,那么两矩阵的乘机AB 就是变换结果,其中AB的第m列为A中第m列变换后的结果.

3.协方差矩阵以及优化目标

如果基的数量少于向量本身的维数,则可以达到降维的效果.但是如何选择才是最优的?
或者说,如果我们有一组N维向量,现在要将其降到k维,(小于N),那么如何选择k才能保存最大的原有的信息呢.
例子:

(\begin{matrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \end{matrix})

$\begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \\ \end{pmatrix}$
其中每一列为一条数据记录,而一行为一个字段.处理:平均化每个字段,其结果是将每个字段都变成均值0.
变换后:

(\begin{matrix} - 1 & - 1 & 0 & 2 & 0 \\ - 2 & 0 & 0 & 1 & 1 \end{matrix})

$\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \\ \end{pmatrix}$
数据坐标内的样子:
这里写图片描述

为了保留最多的原始信息,一种直观的选择是:
希望投影后的投影值尽可能分散.
以上图为例,可以看出如果向X轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了.

方差

上文说到，我们希望投影后投影值尽可能分散，而这种分散程度，可以用数学上的方差来表述。此处，一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：
$Var(a) = \frac{1}{m}\sum_{i=1}^{m}(a_i - \mu)^2$
因为我们将均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示:
$Var(a) = \frac{1}{m}\sum_{i=1}^{m}a_i ^2$
于是上面的问题被形式化表述为:
寻找一个一维基,使得所有数据变换微这个基上的坐标表示后,方差值最大.

协方差

对于上面二维降成一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件。从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段均值为0，则：

C o v (a, b) = \frac{1}{m} \sum_{i = 1}^{m} a_{i} b_{i}

$Cov(a,b) = \frac{1}{m}\sum_{i=1}^{m}a_ib_i$
可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示其内积除以元素数m.

4.协方差矩阵

上面我们导出了优化目标，但是这个目标似乎不能直接作为操作指南（或者说算法），因为它只说要什么，但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是我们来了灵感：

假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

X = (\begin{matrix} a_{1} & a_{2} . . . & a_{m} \\ b_{1} & b_{2} . . . & b_{m} \end{matrix})

$X = \begin{pmatrix} a_1 & a_2 ... & a_m \\ b_1 & b_2 ...& b_m \\ \end{pmatrix}$
然后我们用X乘以X的转置,并乘上系数1/m:

\frac{1}{m} X X^{T} = (\begin{matrix} \frac{1}{m} \sum_{i = 1}^{m} a_{i}^{2} & \frac{1}{m} \sum_{i = 1}^{m} a_{i} b_{i} \\ \frac{1}{m} \sum_{i = 1}^{m} a_{i} b_{i} & \frac{1}{m} \sum_{i = 1}^{m} b_{i}^{2} \end{matrix})

$\frac{1}{m}XX^T = \begin{pmatrix} \frac{1}{m}\sum_{i=1}^{m}a_i^2 & \frac{1}{m}\sum_{i=1}^{m}a_ib_i \\ \frac{1}{m}\sum_{i=1}^{m}a_ib_i & \frac{1}{m}\sum_{i=1}^{m}b_i^2 \end{pmatrix}$
奇迹出现了！这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设 $C = \frac{1}{m}XX^T$ ，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

5.协方差矩阵对角化

根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：
设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

D = \frac{1}{m} Y Y^{T} = \frac{1}{m} (P X) (P X)^{T} = \frac{1}{m} P X X^{T} p^{T} = P (\frac{1}{m} X X^{T}) P^{T} = P C P^{T}

$D = \frac{1}{m}YY^T\\ = \frac{1}{m}(PX)(PX)^T\\ = \frac{1}{m}PXX^Tp^T \\ =P(\frac{1}{m}XX^T)P^T\\ =PCP^T$
现在我们可以确定，我们要找的P不是别的，而是能让原始协方差矩阵对角化的P，换句话说，优化目标变成了寻找一个矩阵P，满足PCP^T是一个对角矩阵，并且对角元素按照从大到小一次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。
至此，我们离发明PCA还有一步之遥！
现在所有焦点都聚焦在了协方差矩阵对角化问题上。
由上文知道，协方差矩阵c是一个对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：
虽然自己是考研，学了线性代数，但是对线性代数无感，不明白这门数学课是干嘛的。。。为了若干年后还记的背熟的知识点，在此记录一下
1）不同特征值对应的特征向量必然正交。
2）设特征向量

λ

$\lambda$ 重数为r，则必然存在r个线性无关的特征向量对应于

λ

$\lambda$ ，因此可以将这r个特征向量单位正交化。

由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量为 $e_1,e_2,e_3,...,e_n$ ，我们将其按列组成矩阵：

E = (\begin{matrix} e_{1} & e_{2} & e_{3} & . . . & e_{n} \end{matrix})

$E = \begin{pmatrix}e_1 & e_2 & e_3 & ... &e_n\end{pmatrix}$
则对协方差矩阵C有如下结论：

E^{T} C E = Λ = (\begin{matrix} λ_{1} \\ λ_{2} \\ λ_{3} \\ ⋱ \\ λ_{n} \end{matrix})

$E^TCE = \Lambda = \begin{pmatrix}\lambda_1 & & & & \\& \lambda_2 & \\& & \lambda_3 &\\&&& \ddots \\&&&& \lambda_n \end{pmatrix}$
我们发现已经找到了需要的矩阵P：

P = E^{T}

$P = E^T$
P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照

λ

$\lambda$ 中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。
至此我们完成了整个PCA的数学原理讨论。在下面的一节，我们将给出PCA的一个实例。

算法以及实例

PCA算法

总结一下PCA的算法步骤：

设有m条n维数据。
1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6）即为降维到k维后的数据

实例

这里以上文提到的

E = (\begin{matrix} - 1 & - 1 & 0 & 2 & 0 \\ - 2 & 0 & 0 & 1 & 1 \end{matrix})

$E =\begin{pmatrix}-1& -1& 0& 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}$
为例，我们用PCA方法将这组二维数据其降到一维。
因为这个矩阵的每行已经是零均值，这里我们直接求协方差矩阵：

C = \frac{1}{5} (\begin{matrix} - 1 & - 1 & 0 & 2 & 0 \\ - 2 & 0 & 0 & 1 & 1 \end{matrix}) (\begin{matrix} - 1 & - 2 \\ - 1 & 0 \\ 0 & 0 \\ 2 & 1 \\ 0 & 1 \end{matrix}) = (\begin{matrix} \frac{6}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{6}{5} \end{matrix})

$C = \frac{1}{5} \begin{pmatrix}-1& -1& 0& 2 & 0 \\ -2 & 0 & 0 & 1 & 1\end{pmatrix} \begin{pmatrix}-1& -2\\-1& 0\\0 & 0\\2 & 1\\ 0 & 1\\ \end{pmatrix} = \begin{pmatrix}\frac{6}{5} & \frac{4}{5}\\\frac{4}{5} & \frac{6}{5} \end{pmatrix}$
然后求其特征值和特征向量，具体求解方法不再详述，可以参考相关资料。求解后特征值为：

λ_{1} = 2, λ_{2} = \frac{2}{5}

$\lambda_1 = 2,\lambda_2 = \frac{2}{5}$
其对应的特征向量分别是：

c_{1} (\begin{matrix} 1 \\ 1 \end{matrix}), c_{2} (\begin{matrix} - 1 \\ 1 \end{matrix})

$c_1 \begin{pmatrix} 1\\1 \end{pmatrix}, c_2 \begin{pmatrix} -1\\1 \end{pmatrix}$
其中对应的特征向量分别是一个通解，

c_{1}

$c_1$ 和

c_{2}

$c_2$ 可取任意实数。那么标准化后的特征向量为：

(\begin{matrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{matrix}), (\begin{matrix} \frac{- 1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{matrix})

$\begin{pmatrix} \frac{1}{\sqrt2}\\ \frac{1}{\sqrt2} \end{pmatrix}, \begin{pmatrix} \frac{-1}{\sqrt2}\\ \frac{1}{\sqrt2} \end{pmatrix}$
因此我们的矩阵P是：

P = (\begin{matrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{- 1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{matrix})

$P = \begin{pmatrix} \frac{1}{\sqrt2} & \frac{1}{\sqrt2} \\ \frac{-1}{\sqrt2} & \frac{1}{\sqrt2} \end{pmatrix}$
可以验证协方差矩阵的C的对角化：
这里写图片描述

最后我们用P的第一行乘以数据矩阵，就得到了降维后的表示：
这里写图片描述

降维投影效果就是如下：
这里写图片描述

进一步讨论

根据上面对PCA的数学原理的解释，我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。

因此，PCA也存在一些限制：
例如它可以很好的解除线性相关，但是对于高阶相关性就没有办法了。
对于存在高阶相关性的数据，可以考虑Kernel PCA，通过Kernel函数将非线性相关转为线性相关，关于这点就不展开讨论了。
另外，PCA假设数据各主特征是分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣了。

最后需要说明的是，PCA是一种无参数技术，也就是说面对同样的数据，如果不考虑清洗，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身无法个性化的优化。