【算法原理】主成分分析(PCA)

目标: 降低特征维度

如何降维: 基变换(将原始特征所依赖的基组变换为新的基组,基组改变,原始特征也会按照基组的变换而变)。

如何确定新基组: 变换后方差越大越好(保留的原始信息越多),同时基组中的基协方差要为0(协方差衡量变量间的相关程度,协方差为0则两个变量不相关,即基组中的基两两正交,几何表示为垂直)。

有了新基组的确定标准,该如何计算新基组: 利用协方差矩阵(对角线上是方差,其余位置是协方差,该矩阵为对称矩阵),因为实对称矩阵一定能找到单位正交的特征向量,所以利用协方差矩阵的对角化(考研数学知识)找到特征值及对应的特征向量。

特征向量与降维的关系: 选择出的特征向量乘以原始数据就可以实现对原始数据的降维。例如将150个具有4个特征的数据(1504)乘以两个特征向量(加入为42),则原始数据降维成150*2,特征维度降为2维。

那么该如何选择特征向量个数及具体哪些特征向量呢: 以特征值为标准,特征值越大,代表该特征值所对应的特征向量越重要。对特征值大小排序,按照预先指定的降维后的特征数(如2),选择特征值排名前2的所对应的特征向量。

发布了40 篇原创文章 · 获赞 0 · 访问量 1699

猜你喜欢

转载自blog.csdn.net/weixin_44680262/article/details/104718311