1. 归一化

2. PCA:

3. ZCA

对数据做白化处理必须满足两个条件：

使数据的不同维度去相关；
使数据每个维度的方差为1；

条件1要求数据的协方差矩阵是个对角阵；条件2要求数据的协方差矩阵是个单位矩阵。

为什么使用白化？

教程给出的解释是：

假设训练数据是图像，由于图像中相邻像素之间具有很强的相关性，所以用于训练时输入是冗余的。白化的目的就是降低输入的冗余性。

比如在独立成分分析（ICA）中，对数据做白化预处理可以去除各观测信号之间的相关性，从而简化了后续独立分量的提取过程，而且，通常情况下，数据进行白化处理与不对数据进行白化处理相比，算法的收敛性较好。

PCA白化与 ZCA白化

PCA 白化

我曾在这篇文章里详细介绍了 PCA 的原理。

给定训练数据集（假设每个特征都具有零均值）：

n 是数据维度；m 是样本个数。

数据的协方差矩阵为：

对协方差矩阵做奇异值分解：

U 是 Σ 的特征向量矩阵，S 是其特征值矩阵；因为 Σ 是对称方阵，所以 V=U'，Σ=USV。

PCA 白化的定义如下：

其中，Xrotate 就是原数据在主成分轴上的投影，而 S^(-1/2) 相当于对每一个主轴上的数据做一个缩放，缩放因子就是除以对应特征值的平方根。

所以：

上式第 2 步是把 XPCAwhite 表达式带入得到的；第 3 步利用了矩阵 S 是对角阵的特性；第 4 步是将 Σ 作奇异值分解得到的；第 5 步利用了 U 是酉矩阵的性质（U'U=UU'=I）。

可见数据在经过 PCA 白化以后，其协方差矩阵是一个单位矩阵，即各维度变得不相关，且每个维度方差都是 1。

ZCA 白化

教程里给 ZCA 白化的定义是：

相当于将经过 PCA 白化后的数据重新变换回原来的空间。

所以：

可见 ZCA 白化也是一个合法的白化。