1、降维,对数据简化的原因
- 使得数据集更加容易使用
- 降低很多算法的计算开销
- 去除噪音
- 使得结果易懂
2、三种降维技术,PCA是目前应用最广泛的
1)主成分分析(principal Component Analysis,PCA)
- 通俗理解:就是找出一个最主要的特征,然后进行分析。
- 例如: 考察一个人的智力情况,就直接看数学成绩就行(存在:数学、语文、英语成绩)
2)因子分析(Factor Analysis)
- 通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性。
- 例如: 考察一个人的整体情况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)
3)独立成分分析(Independ Component Analysis,ICA)
- 通俗理解:ICA认为观测信号是若干独立信号的线性组合,ICA要做的是一个解混过程。
- 例如:我们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。
- ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似,这些数据源之间在统计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的。
- 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。