Lecture 14 Dimensionality Reduction 降维

14.1 降维的动机一:数据压缩 Data Compression

现在讨论第二种无监督学习问题：降维。降维的一方面作用是数据压缩，允许我们使用较少的内存或磁盘空间，也加快算法速度。

例子：
假设我们用两个特征描述一个物品的长度，x1单位是厘米cm，x2 单位是英寸inches。这导致高度冗余，所以需要减到一维。

将数据从三维降至二维: 将三维向量投射到一个二维的平面上，强迫使得所有的数据都在同一个平面上，降至二维的特征向量。

这个过程可以用于把任何维度的数据降到任何想要的维度。事实工作中，不同的团队可能会给你几百或成千上万的特征，其中很容易出现冗余特征。

14.2 降维的动机二:数据可视化 Visualization

降维可以帮助我们将高维数据可视化。
假使有关于许多不同国家的数据，每一个特征向量都有 50 个特征(如 GDP，人均 GDP，平均寿命等)。如果要将这个 50 维的数据可视化是不可能的。将其降至 2 维，便可将其可视化了。

这样做的问题在于，降维算法只负责减少维数，新产生的特征的意义就必须由我们自己去发现了。

14.3 PCA问题的公式描述 Principal Component Analysis Problem Formulation

主成分分析(PCA)是最常见的降维算法。PCA 要做的是找到一个方向向量(Vector direction)，当把所有的数据都投射到该向量上时，投射平均均方误差尽可能小。方向向量是一个经过原点的向量，投射误差是从特征向量向该方向向量所作垂线的长度。如下图：

主成分分析问题，要将n维数据降至k维，目标是找到向量u⁽¹⁾ ，u⁽²⁾ ，...，u^(k) 使得总的投射误差 Projected Error 最小:

主成分分析与线性回归的比较:

主成分分析最小化的是投射误差，不作任何预测。

线性回归最小化的是预测误差，目的是预测结果。
上图中，左边的是线性回归的误差(垂直于横轴投影)，右边则是主要成分分析的误差(垂直于斜线投影)。

PCA 将n个特征降维到k个，可以用来进行数据压缩，如果 100 维的向量最后可以用 10维来表示，那么压缩率为 90%。同样图像处理领域的 KL 变换使用 PCA 做图像压缩。但 PCA 要保证降维后数据的特性损失最小。

PCA 的一大好处是对数据进行降维处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度保持原有数据的信息。

PCA 的一个很大的优点是，它是完全无参数限制的。在 PCA 的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。但这同时也是缺点，如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

14.4 PCA算法 Principal Component Analysis Algorithm

使用PCA 从 n 维减少到 k 维:
1）均值归一化。计算出所有特征的均值，然后令 x_j = x_j − μ_j 。如果特征是在不同的数量级上，还需要将其除以标准差 σ² 。

2）计算协方差矩阵(covariance matrix) sigma Σ

3）计算协方差矩阵 Σ 的特征向量(eigenvectors):
在 Octave 里我们可以利用奇异值分解(singular value decomposition)来求解， [U， S，V] = svd(sigma) 。

对于一个 n × n 维度的矩阵，U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果希望将数据从 n 维降至 k 维，只需要从 U 中选取前 k 个向量，获得一个 n × k 维度的矩阵，用Ureduce 表示，然后通过如下计算获得要求的新特征向量 z⁽ⁱ⁾:

其中 x 为 n × 1 维，因此结果为 k × 1 维。注：我们不对方差特征进行处理。

14.5 重建原始特征 Reconstruction from Compressed Representation

给定压缩后的低维数据 z⁽ⁱ⁾怎么反向得到高维的x⁽ⁱ⁾数据？即如何重建原始数据?

当 x 为 2 维，z 为 1 维，z = Ureduce^T * x，则相反的方程为:
x_appox = U_reduce ⋅ z，这时x_appox ≈ x。

14.5 选择主成分的数量k Choosing The Number Of Principal Components

主要成分分析最小化投射的平均均方误差，怎么选择适当降维目标 k 值（即主成分的数量）呢？

我们希望：在平均均方误差与训练集方差的比例尽可能小的情况下，选择尽可能小的 k 值。

如果希望比例小于 1%，就意味着原本数据的偏差有 99%都保留下来了。另外，还可以使用5%， 10% 这些比例。

可能95到99是最常用的取值范围。（对于许多数据集，通常可以大幅地降低数据的维度却还能保留大部分的差异性。这是因为对于大部分现实数据的许多特征变量都是高度相关的）

具体做法：

a) 先令 k = 1，然后进行主要成分分析，获得U_reduce 和z，然后计算比例是否小于1%。

b) 如果不是的话，再令k = 2，如此类推，直到找到可以使得比例小于 1%的最小k 值。

事实上还有一些更好的方式，当在 Octave 中调用“svd”函数的时候，我们获得三个参数: [U， S， V] = svd(sigma) 。
其中 S 是一个n × n的矩阵，只有对角线上有值，而其它单元都是 0，我们可以直接使用这个矩阵来计算平均均方误差与训练集方差的比例，而不用一致重复计算误差和方差: