PCA原理与发展

原文:Principal component analysis: a review and recent development.

本文只是简单提炼要点,如果没有线性代数基础建议阅读原文。
链接:https://doi.org/10.1098/rsta.2015.0202

背景和基本方法

PCA是为了保留最多特征的的数据降维方法。主要步骤:数据经过归一化处理之后,再用SVD算出特征值和特征向量,保留最重要也就是有最大特征值的特征向量,用绘图工具将特征向量在图上表现出来。

PCA的质量控制

PCA的质量通常用保留的特征值与原本的特征值之比来表示。大多数时候,这个占比达到70%就可以接受了。尽管有时降维要求降到二维或三维,这个标准也是适用的。

协方差矩阵(一种标准化方式)

一些情况下,有的数据之间的量纲并不统一,如果用量纲不统一的数据来直接降维容易造成较大的误差,这时候,用协方差矩阵来解决。这个步骤就是归一化(Normalization)。每一列的每一个值都要先减去这一列的均值,再除以这一列的标准差。

PCA的发展,几种不同的PCA方法

  1. Functional PCA: Functional理解为函数的意思。用行向量的一个积的积分表示积分转化。
  2. Simplified PCA: PCA原本是一个线性组合,如果前几个特征值之和比较小,不显著,那么PCA的结果就不可靠。通过一些转化,解决这个问题。
    • Rotation:转置一些向量
    • Adding a constraint: 去除一些没有到阈值的数据
  3. Robust PCA: 把原来的矩阵分解成两个矩阵,X=L+S,L更小,更重要,S被视为noise。
  4. Symbolic data PCA:

猜你喜欢

转载自www.cnblogs.com/wulilichao/p/13394140.html