利用PCA简化数据

1、降维,对数据简化的原因

  • 使得数据集更加容易使用
  • 降低很多算法的计算开销
  • 去除噪音
  • 使得结果易懂

2、三种降维技术,PCA是目前应用最广泛的

1)主成分分析(principal Component Analysis,PCA)

  • 通俗理解:就是找出一个最主要的特征,然后进行分析。
  • 例如: 考察一个人的智力情况,就直接看数学成绩就行(存在:数学、语文、英语成绩)

2)因子分析(Factor Analysis)

  • 通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性。
  • 例如: 考察一个人的整体情况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)

3)独立成分分析(Independ Component Analysis,ICA)

  • 通俗理解:ICA认为观测信号是若干独立信号的线性组合,ICA要做的是一个解混过程。
  • 例如:我们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。
  • ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似,这些数据源之间在统计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的。
  • 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。

猜你喜欢

转载自blog.csdn.net/qq_43283527/article/details/84062443
今日推荐