MachineLearning之降维艺术--PCA算法原理及多种方法实现

《 Dianchen Raw’s Machine Learning 学习笔记系列 ---- 小白角度看机器学习》

有导航,不迷路。

(1). DeepLearning之LSTM模型输入参数:time_step, input_size, batch_size的理解

(2). DeepLearning之LSTM模型输入数据:白话降维解说

(3). MachineLearning之降维艺术–PCA算法原理及多种方法实现


本文摘要:

  1. 如何利用PCA解决实际问题的痛点?

  2. PCA的各种参数映射到实际物理问题都映射着什么?

  3. 如何更好的理解PCA?


1. PCA的基本介绍

  1. PCA全称是principal components analysis,中文的含义是主要成分分析。
  2. 也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标,几个综合指标也可以转化是从最小的指标综合而成。
  3. 在统计学中,主成分分析PCA是一种简化数据集的技术。

2. PCA原理,如何降维

  1. 它是一个线性变换。
  2. 这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
  3. 主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
  4. 这是通过保留低阶主成分,忽略高阶主成分做到的。
  5. PCA 的目标是寻找 r ( r<n )个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维数来概括最重要特征。
  6. 每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。
  7. 这 r 个新变量称为“主成分”,它们可以在很大程度上反映原来 n 个变量的影响,并且这些新变量是互不相关的,也是正交的。
  8. 通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。

3. PCA如何实现(SPSS, Python)

  1. 矩阵的特征方程式是:A * x = lamda * x
  2. 这个方程可以看出什么?上次我们提到矩阵实际可以看作一个变换,方程左边就是把向量x变到另一个位置而已;
  3. 右边就是把向量x作了一个拉伸,拉伸量是lamda。
  4. 那么它的意义就很明显了,表达了矩阵A的一个特性就是这个矩阵可以把向量x拉长(或缩短)lamda倍,仅此而已。
  5. PCA的spss实现,运用SPSS进行PCA主成分分析(因子分析)
  6. PCA的python实现,主成分分析法以及python实现
  7. PCA的R语言实现,R语言与主成分分析

4. 特征值与特征向量都是啥意思?

  1. 特征值对应的特征向量就是理想中想取得正确的坐标轴
  2. 特征值就等于数据在旋转之后的坐标上对应维度上的方差。
  3. 这个就是特征值和特征向量的一个实际应用:“得出使数据在各个维度区分度达到最大的坐标轴。”

5. PCA的实际物理意义什么?

  1. 所以,在数据挖掘中,就会直接用特征值来描述对应特征向量方向上包含的信息量,
  2. 而某一特征值除以所有特征值的和的值就为:该特征向量的方差贡献率(方差贡献率代表了该维度下蕴含的信息量的比例)。
  3. 通常经过特征向量变换下的数据被称为变量的主成分,当前m个主成分累计的方差贡献率达到一个较高的百分数(如85%以上)的话,就保留着这m个主成分的数据。
  4. 实现了对数据进行降维的目的。整个主成分分析的算法原理也就是这个。

6. 痛点:PCA能干什么?

  1. 数据降维
  2. 特征工程
  3. 综合指标

7. 小白的理解与总结

  1. 当数据的的维数过多时,在尽可能不减少数据信息的情况下,可有效减少数据的维数
  2. 当有过多的特征不好抓取时,可使用PCA进行特征的提取,例如图片识别(轮廓)
  3. 当子指标过多时,可使用PCA对子指标进行分类,变为几个较为重要的综合指标

————————————————
参考链接,尊重原创,支持原创!

  1. 「Mr.Jcak」,主成分分析PCA以及特征值和特征向量的意义。原文链接:https://blog.csdn.net/weixin_38314865/article/details/84190175

    扫描二维码关注公众号,回复: 15360317 查看本文章
  2. 「wangxiaojun911」,矩阵——特征向量(Eigenvector)。
    原文链接:https://blog.csdn.net/wangxiaojun911/article/details/673793

猜你喜欢

转载自blog.csdn.net/weixin_42101836/article/details/105743881