【机器学习】主元分析（PCA）以及与SVD的区别联系

参考文章：如何理解主元分析（PCA）？

主元分析的目的是降低数据的维度。主元分析也就是PCA，主要用于数据降维。

1 什么是降维？

比如说有如下的房价数据：

这种一维数据可以直接放在实数轴上：

不过数据还需要处理下，假设房价样本用 $X$ 表示，那么均值为：

$\begin{align*} \bar{X} = \frac{X_1+X_2+X_3+X_4+X_5}{5} = \frac{10+2+1+7+3}{5} = 4.6 \end{align*}$

然后平移到以均值 $\bar{X}$ 为原点：

以 $\bar{X}$ 为原点的意思是，以 $\bar{X}$ 为0，那么上述表格的数字就需要修改下：

这个过程称为“中心化”。“中心化”处理的原因是，这些数字后继会参与统计运算，比如求样本方差，中间就包含了 $X_i-\bar{X}$ ：

$\begin{align*} Var(X) = {1\over n}\sum_{i=1}^n({\color{Red} X_i-\bar{X}})^2 \end{align*}$

说明下，虽然样本方差的分母应该是 ${\color{Red} n-1}$ ，这里分母采用 $n$ 是因为这样算出来的样本方差 $Var(X)$ 为一致估计量，不会太影响计算结果并且可以减少运算负担。

用“中心化”后的数据就可以直接算出“房价”的样本方差：

$\begin{align*} Var(X) = {1\over 5}\times (5.4^2+(-2.6)^2+(-3.6)^2+2.4^2+(-1.6)^2) \end{align*}$

“中心化”之后可以看出数据大概可以分为两类：

现在新采集了房屋的面积，可以看出两者完全正相关，有一列其实是多余的：

求出房屋样本、面积样本的均值，分别对房屋样本、面积样本进行“中心化”后得到：

房价（ $X$ ）和面积（ $Y$ ）的样本协方差是这样的（这里也是用的一致估计量）:

$\begin{align*} Cov(X,Y) = {1\over n}\sum_{i=1}^n({\color{Red} X_i-\bar{X}})({\color{Red} Y_i-\bar{Y}}) \end{align*}$

可见“中心化”后的数据可以简化上面这个公式，这点后面还会看到具体应用。

把这个二维数据画在坐标轴上，横纵坐标分别为“房价”、“面积”，可以看出它们排列为一条直线：

如果旋转坐标系，让横坐标和这条直线重合：

旋转后的坐标系，横纵坐标不再代表“房价”、“面积”了，而是两者的混合（术语是线性组合），这里把它们称作“主元1”、“主元2”，坐标值很容易用勾股定理计算出来，比如 $a$ 在“主元1”的坐标值为：

很显然 $a$ 在“主元2”上的坐标为0，把所有的房间换算到新的坐标系上：

因为“主元2”全都为0，完全是多余的，我们只需要“主元1”就够了，这样就又把数据降为了一维，而且没有丢失任何信息：

2 非理想情况如何降维？

上面是比较极端的情况，就是房价和面积完全正比，所以二维数据会在一条直线上。

现实中虽然正比，但总会有些出入：

把这个二维数据画在坐标轴上，横纵坐标分别为“房价”、“面积”，虽然数据看起来很接近一条直线，但是终究不在一条直线上：

那么应该怎么降维呢？分析一下，从线性代数的角度来看，二维坐标系总有各自的标准正交基（也就是两两正交、模长为1的基）， $e_1,e_2$ ：

在某坐标系有一个点， $a=\begin{pmatrix} x\\ y \end{pmatrix}$ ，它表示在该坐标系下标准正交基 $e_1,e_2$ 的线性组合：

$\begin{align*} a = \begin{pmatrix} x\\y \end{pmatrix}=x\cdot e_1+y\cdot e_2 \end{align*}$

只是在不同坐标系中， $x,y$ 的值会有所不同（旋转的坐标表示不同的坐标系）：动图，建议看原网站。

因为 $a$ 到原点的距离 $d$ 不会因为坐标系改变而改变：

而：

$\begin{align*} d^2 = x^2 + y^2 \end{align*}$

所以，在某坐标系下分配给 $x$ 较多，那么分配给 $y$ 的就必然较少，反之亦然。最极端的情况是，在某个坐标系下，全部分配给了 $x$ ，使得 $y=0$ ：

那么在这个坐标系中，就可以降维了，去掉 $e_2$ 并不会丢失信息：

如果是两个点 $a=\begin{pmatrix} x_1\\y_1 \end{pmatrix},b=\begin{pmatrix} x_2\\y_2 \end{pmatrix}$ ，情况就复杂一些：

为了降维，应该选择尽量多分配给 $x_1,x_2$ ，少分配给 $y_1,y_2$ 的坐标系。

3 主元分析（PCA）

具体怎么做呢？假设有如下数据：(a、b为样本，X、Y为特征)

上面的数据这么解读，表示有两个点：

$\begin{align*} a = \begin{pmatrix} X_1\\Y_1 \end{pmatrix}\ \ \ b=\begin{pmatrix} X_2\\Y_2 \end{pmatrix} \end{align*}$

这两个点在初始坐标系下（也就是自然基 $e_1 = \begin{pmatrix} 1\\0 \end{pmatrix},e_2=\begin{pmatrix} 0\\1 \end{pmatrix}$ ）下坐标值为：

$\begin{align*} a = \begin{pmatrix} X_1\\Y_1 \end{pmatrix}=\begin{pmatrix} a_1\\b_1 \end{pmatrix}\ \ \ b=\begin{pmatrix} X_2\\Y_2 \end{pmatrix}=\begin{pmatrix} a_2\\ b_2 \end{pmatrix} \end{align*}$

图示如下：

随着坐标系的不同， $X_1,X_2$ 的值会不断变化：

要想尽量多分配给 $X_1,X_2$ ，借鉴最小二乘法（请参考如何理解最小二乘法）的思想，就是让：

$\begin{align*} \max X_1^2+X_2^2 = \sum_{i=0}^2X_i^2 \end{align*}$

要求这个问题，先看看 $X_1,X_2$ 怎么表示，假设：

$\begin{align*} e_1 = \begin{pmatrix} e_{11}\\e_{12} \end{pmatrix}\ \ \ e_2=\begin{pmatrix} e_{21}\\e_{22} \end{pmatrix} \end{align*}$

根据点积的几何意义（如何通俗地理解协方差和点积）有：

$\begin{align*} X_1 = a \cdot e_1 = \begin{pmatrix} a_1\\b_1 \end{pmatrix}\cdot \begin{pmatrix} e_{11}\\e_{12} \end{pmatrix}=a_1e_{11}+b_1e_{12} \end{align*}$

$\begin{align*} X_2 = b \cdot e_1 = \begin{pmatrix} a_2\\b_2 \end{pmatrix}\cdot \begin{pmatrix} e_{11}\\e_{12} \end{pmatrix}=a_2e_{11}+b_2e_{12} \end{align*}$

那么：

$\begin{align*} X_1^2+X_2^2&=(a_1e_{11}+b_1e_{12})^2+(a_2e_{11}+b_2e_{12})^2\\ &=a_1^2e_{11}^2+2a_1b_1e_{11}e_{12}+b_1^2e_{12}^2+a_2^2e_{11}^2+2a_2b_2e_{11}e_{12}+b_2^2+e_{12}^2\\ &= (a_1^2+a_2^2)e_{11}^2 +2(a_1b_1+a_2b_2)e_{11}e_{12} + (b_1^2+b_2^2)e_{12}^2 \end{align*}$