特征工程操作流程

特征工程

  • 数据采集/收集

  • 根据问题选择算法

分类问题经常用逻辑回归,模型简单,容易训练,可解释性强。

逻辑回归性能上没有树模型效果好,可解释性没有决策性好。

做特征交叉,特征组合,需要人工去做。

用深度模型或者树模型去做的话,也可以实现自动的特征交叉,树模型只能做二维的,高维度的不太管用,

如果强调准确性就GBDT,   xgboost

解释性特别强用决策树

做线性回归或者是回归树,不能有空值,空值会报错。

  • 根据算法的特点 对数据进行处理

    • 空值 异常 重复

异常 大于百分之99的,小于1的用99来填

  • 根据特征的类型 做进一步处理

    • 数值/连续

      • 归一化/标准化

      • 分箱/分桶/离散化

    • 分类

      • one-hot编码

      • 编号

  • 特征衍生

    • 如果按照id做聚合 有很多数据,可以计算同一个id的这些数据的统计量(平均,方差,极差....)

    • 特征交叉

    • 根据业务的理解衍生新特征

  • 特征选择

    • 过滤

    • 递归

    • 嵌入

  • 分类问题 样本是否均衡

  • 建模调参

  • 模型融合问题

    • RMSE MSE MAE

猜你喜欢

转载自blog.csdn.net/weixin_48135624/article/details/114947730