TASK 3 特征工程

TASK 3 特征工程
总结自《Datawhale 零基础入门数据挖掘-Task3 特征工程》-阿泽

数据预处理

1)异常值处理:处理方式主要包括箱线图、3σ准则、BOX-COX转换(可以处理有偏分布)、长尾截断等。
2)缺失值处理:处理方式主要包括删除(缺失值过多)、插值补全(可通过众数、中位数、均值等多种方式进行填补)、不处理等。
3)归一化/标准化处理:归一化/标准化可以去除量级对数据的影响,使各个特征都在统一水平上。标准化可以转化为标准正态分布、归一化可以转换到[0, 1]区间。

特征提取与构造

1)目标:从现有数据特征中构造提取具有区分度或强相关度的特征,辅助提升模型精度。
2)构建统计特征:包括均值、求和、比例、标准差、计数等。
3)时间特征:包括相对时间、绝对时间、节假日、双休日等。
4)地理信息:包括分箱、分布编码等。
5)非线性变换:包括log/平方/根号等。
6)特征组合、特征交叉。
7)特征变换:使用PCA等方法,也可以使用AE、深度学习等方法自适应提取。

特征筛选

1)目标:从已有的数据特征或构造的数据特征中筛选出具有区分度或强相关度的特征,辅助提升模型精度。
2)过滤法:先进行特征选择,再训练学习器,即特征选择和训练模型是分开的,常见的有Relief算法/方差选择/Pearson相关系数法等,也就是通过对特征自身分类特性或回归特性进行评价,从而完成特征选择。
3)包裹法:直接把最终要用的学习期的性能作为特征提取的评价指标,常见的有LVM。
4)嵌入法:在训练学习器过程中自适应的进行特征选择,常见的有lasso回归。
5)非线性变换:包括log/平方/根号等,还可以使用PCA等方法,也可以使用AE、深度学习等方法自适应提取。
6)特征组合、特征交叉。

个人理解和总结

1)俗话说特征决定了结果的上限,所以特征工程在数据挖掘过程中是十分重要的。
2)特征工程的方法有很多,但是要挖掘到有用的特征十分难,而在特征工程中添加一些经验知识有时也是十分有用的。

以天池二手车价格预测为例进行实践探索:

1)依次尝试归一化、标准化等方式对数据进行处理,特别的对“power”等特征进行了log变换。
2)依照引文,构建特征如下:
(1)使用时间:data[‘creatDate’] - data[‘regDate’],反应汽车使用时间,一般来说价格与使用时间成反比。
(2)从邮编中的城市信息
3)尝试多种特征筛选方法,包括相关性分析、Lasso回归和决策树等方式。

发布了5 篇原创文章 · 获赞 0 · 访问量 332

猜你喜欢

转载自blog.csdn.net/lybch1/article/details/105134470