9、主成分分析

一、用自己的话描述出其本身的含义:

  ①特征选择

  当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练,例如从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程。

  ②PCA

  对于一组不同维度之间可能存在线性相关关系的数据,PCA能够把这组数据通过正交变换变成各个维度之间线性无关的数据。

二、并用自己的话阐述出两者的主要区别

  两者的区别:

  特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。举个例子,现在的特征是1000维,现在我们要从这1000个特征中选择500个,那个这500个特征的值就跟对应的原始特征中那500个特征值是完全一样的。对于另个500个没有被选择到的特征就直接抛弃了。假设原始特征中有个特征的值是9,那么特征选择选到这个特征后它的值还是9,并没有改变。

  PCA本质上是从一个维度空间映射到另一个维度空间,特征的多少没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的500维空间中的一个值。假设原始特征中有个特征的值是9,那么降维后对应的值可能是3。

  一般特征较少时使用特征选择,特征有上百个时使用PCA。

 

猜你喜欢

转载自www.cnblogs.com/ljm41/p/12789639.html