● 每周一言

评论家通常比实干家来的容易。

导语

上一节介绍了什么是降维，以及降维解决的问题。本节将介绍线性降维中的主成分分析PCA的具体算法思想和步骤。

主成分分析，顾名思义就是提取出主要的成分。直观上理解，降维其实就是从稀疏庞大的特征维度上提取出具有主要影响力的维度。

PCA是一种常用的降维技术，其思想是将N维特征空间映射到K维特征空间上（K < N）。这K维特征两两正交，正交可以理解为互不依赖，在空间上表现为垂直。

PCA的处理过程按顺序划分包括 标准化、 协方差矩阵、 特征值分解 和 K值选择 四个部分，下面我们对这四个部分逐一进行讲解。

特征标准化 标准化的目的是防止极大极小值带来的映射误差，其具体操作方法是对每一维的特征值进行“减均值除以标准差”的变换。需要特别注意的一点是，标准化的参数只能在训练集而不是测试集上计算，避免“先知”和数据“穿越”。

计算协方差矩阵 我们知道，方差是衡量一维数据稳定性的指标，具体是指数据偏离均值的程度。协方差则是多维情况，衡量两两维度之间的变化趋势是否一致。

特征值分解 特征值分解得到N个特征值向量，每一个向量代表映射空间的一个维度。一般特征值分解只适用于方阵，因此通常使用适用于任意矩阵的 奇异值分解SVD 方法来获得这N个特征值向量。

K值选择 得到N个N维特征向量后，需要从中选出K个向量做特征空间映射。选择K值的一种方法为：根据奇异值分解得到的对角阵S，对角线求和作为分母，对角线从上至下加和K个值作为分子，保证这个分数值在0.95以上的最大K值，即为合适的K值。

有了这K个N维特征向量之后，便能将N维原特征空间映射到K维特征空间了。

以上便是主成分分析的讲解，敬请期待下节内容。

感谢各位的耐心阅读，后续文章于每周日奉上，敬请期待。欢迎大家关注小斗公众号 对半独白！