UFLDL上的ICA为什么一定要做PCA whiten

　　Andrew Ng先生的UFLDL教程真可谓deep learning入门的首选课程。在两年前我看教程里讲ICA部分的（链接）时候，里面提到使用教程所述的ICA模型时，输入数据必须经过PCA白化操作，页面上有个TODO问为什么要这样做。以当年的我对机器学习的理解并不能解答这个问题，就只是按照教程上讲的写完了代码，后来就一直没有看过了。
　　今天在与人讨论无监督学习的几种损失函数的时候，提到了PCA的损失函数：

max ∥ W x ∥ 2 s . t . W W T = I,

$\max \|Wx\|_2 \quad s.t. WW^T=I,$
优化这个方差，就可以得到最大化方差的解。其中，

W $W$ 是个扁矩阵，以起到降维的作用。我们都知道，这个优化式可以通过svd求解：

W=USV $W = USV$ ，取

U $U$ 的前几列，即可得到降维用的旋转矩阵，而最后几个奇异值，对应

U $U$ 的最后几列，一般都会是接近0的数，是要丢掉的。
　　这时，我突然想起来，为什么ICA的损失函数会使用min函数：

min ∥ W x ∥ 1 s . t . W W T = I .

$\min \|Wx\|_1 \quad s.t. WW^T=I.$
　　要知道

ℓ1 $\ell 1$ 范数和

ℓ2 $\ell 2$ 范数的差别确实有，但并不是那么明显，如果使用min函数的话，岂不是找到了没有数据的那些子空间去了？
　　于是我就去翻了下教程，原来这里需要先对

x $x$ 做PCA白化，先取到

x $x$ 的方差较大的几维子空间，再在这上面做最小化操作，如果把这里的

ℓ1 $\ell 1$ 范数换为

ℓ2 $\ell 2$ 范数，得到的实际上就是

U $U$ 的中间几列。

UFLDL上的ICA为什么一定要做PCA whiten

猜你喜欢