版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/LN_IOS/article/details/80740231
一、确定特征:(收集训练数据)
1 > 数据探索:(为什么要进行数据探索呢:有助于选择 合适的 数据预处理方法 和 建模方法)
(1)数据质量分析
-- 缺失值
-- 异常值
(2)特征分布特性的分析
-- 统计量
-- 直方图
(3)特征之间相关性分析
2 > 数据预处理:
3 > 特征选择:
二、确定模型:(暂定确切的模型)
三、模型训练:(根据样本数据计算模型参数)
四、模型评估: (根据测试数据,评估模型的预测性能)
note:深度学习可学习 feature
===========================================================================================
—–>确定特征—->数据探索——>数据质量分析——–> 缺失值:
1.统计含有缺失值的样本数目 及 缺失率
2.缺失值的处理:
1> 删除含有(一个或多个)缺失值的样本 (从 行 的角度考虑)
2> 删除缺失值太多的特征(从 列 的角度考虑)
3> 对缺失值进行插补
—— 均值mean(默认的方法)
—— 中位数median
—— 众数 most_frequent
—— 固定值插补 (根据背景知识用某些常量进行插补)
—— 最近邻插补 (寻找最相似的样本,用该样本对应的属性进行插补)
—— 回归方法 (用没有缺失的数据建立回归方程预测不完整的样本数据)
—— 插值法 (利用该变量已有数据 建立合适的插值函数 进行插补)
4> 不处理(有些框架可处理数据缺失的情况,如:xgboost)