降维基础

降维:特征的数量 ,易混概念:维度:数组的维度

1、特征选择 

是什么?选取部分特征当做最后分析得数据

原因:冗余:部分特征相关性高,计算量大

           噪声:部分特征对预测结果有影响

主要方法:Filter (过滤式)

                  Embedded(嵌入式):正则化、决策树

                  Wrapper(包裹式),不怎么用

删除地方差特整:删除相似的特征。

sklearn主成分分析

PCA(主成分分析):特征数量达到上百的时候,考虑数据的简化。

数据也会改变,特征数量也会减少。

特征1          
1          
2          
3          
4          
5          
6          
7          
8          

特征数量大的时候会出现以上情况,此时需要用到PCA。

降维案例1:

instacart

将用户分为多个类别------用户-购买的物品类别

分析数据,只有特征值,没有目标值

特征选择与PCA:维度好几百时用PCA

猜你喜欢

转载自blog.csdn.net/qq_38851184/article/details/108542068