1、PCA(Principal Component Analysis)即主成分分析。正如其名,PCA可以找出特征中最主要的特征,把原来的n个特征用k(k < n)个特征代
替,去除噪音和冗余。PCA是特征提取、数据降维的常用方法。
MLlib中PCA的实现思路:
1)原始数据3行4列经过转换得到矩阵A3∗4A3∗4
2)得到矩阵A3∗4A3∗4的协方差矩阵B4∗4B4∗4
3)得到协方差矩阵B4∗4B4∗4的右特征向量
4)选取k(如k=2)个大的特征值对应的特征向量,得到矩阵C4∗2C4∗2
5)对矩阵A3∗4A3∗4降维得到A′3∗2A3∗2′=A3∗4A3∗4*C4∗2