模型构建:PCA 可以方便地生成模型,包括主成分模型、线性判别分析

作者:禅与计算机程序设计艺术

1.简介

Principal Component Analysis (PCA) 是一种用于多维数据降维的技术,它将多维数据集中方差最大的方向作为主要成分,使得各个变量之间具有最大程度的相互独立性。在实际应用中,PCA 有很多用途,例如分析各个因素对数据的影响,数据压缩,图像识别等。本文基于 PCA 的模型建立及应用,对 PCA 的相关知识进行系统的阐述。
概览PCA (Principal Component Analysis,主成分分析),是一个用来处理多维数据变换的方法。由于存在着大量的无效变量(冗余变量)或噪声变量,它们与目标变量之间存在高度的相关性,因此对于有效的降维来说,PCA 应运而生。PCA 通过找寻数据中的最佳线性组合,即“主成分”,来简化数据,从而得到重要信息并发现原有变量之间的关系。
在传统的机器学习模型中,特征选择往往通过评估各个特征的相关系数或者信息熵,然后根据相关性或者信息量的大小去掉不相关的特征,这样做虽然简单快速,但是很可能损失了一些重要的信息。而 PCA 更加直接、直观、简洁,通过计算特征之间的协方差矩阵,找出最大的特征值对应的特征向量,而这些特征向量所代表的方向就是我们想要的主成分。
PCA 的方法如下:

  1. 对数据集中的每一列进行标准化处理,使每一列的均值为零,方差为1。
  2. 求得协方差矩阵C,Cij表示i特征与j特征之间的协方差。
  3. 求得特征值和特征向量。
  4. 根据需要保留一定数量的主成分,并将数据投影到这些主成分上。
    以二维平面为例,假设有一组数据点

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132053413