特征工程
-
数据采集/收集
-
根据问题选择算法
分类问题经常用逻辑回归,模型简单,容易训练,可解释性强。
逻辑回归性能上没有树模型效果好,可解释性没有决策性好。
做特征交叉,特征组合,需要人工去做。
用深度模型或者树模型去做的话,也可以实现自动的特征交叉,树模型只能做二维的,高维度的不太管用,
如果强调准确性就GBDT, xgboost
解释性特别强用决策树
做线性回归或者是回归树,不能有空值,空值会报错。
-
根据算法的特点 对数据进行处理
-
空值 异常 重复
-
异常 大于百分之99的,小于1的用99来填
-
根据特征的类型 做进一步处理
-
数值/连续
-
归一化/标准化
-
分箱/分桶/离散化
-
-
分类
-
one-hot编码
-
编号
-
-
-
特征衍生
-
如果按照id做聚合 有很多数据,可以计算同一个id的这些数据的统计量(平均,方差,极差....)
-
特征交叉
-
根据业务的理解衍生新特征
-
-
特征选择
-
过滤
-
递归
-
嵌入
-
-
分类问题 样本是否均衡
-
建模调参
-
模型融合问题
-
RMSE MSE MAE
-