降维:特征的数量 ,易混概念:维度:数组的维度
1、特征选择
是什么?选取部分特征当做最后分析得数据
原因:冗余:部分特征相关性高,计算量大
噪声:部分特征对预测结果有影响
主要方法:Filter (过滤式)
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式),不怎么用
删除地方差特整:删除相似的特征。
sklearn主成分分析
PCA(主成分分析):特征数量达到上百的时候,考虑数据的简化。
数据也会改变,特征数量也会减少。
特征1 | |||||
1 | |||||
2 | |||||
3 | |||||
4 | |||||
5 | |||||
6 | |||||
7 | |||||
8 |
特征数量大的时候会出现以上情况,此时需要用到PCA。
降维案例1:
instacart
将用户分为多个类别------用户-购买的物品类别
分析数据,只有特征值,没有目标值
特征选择与PCA:维度好几百时用PCA