机器学习任务的一般步骤

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/LN_IOS/article/details/80740231

一、确定特征:(收集训练数据)

1 > 数据探索:(为什么要进行数据探索呢:有助于选择 合适的 数据预处理方法 和 建模方法)

    (1)数据质量分析
          -- 缺失值
          -- 异常值
    (2)特征分布特性的分析
          -- 统计量
          -- 直方图
    (3)特征之间相关性分析


2 > 数据预处理:

3 > 特征选择:

二、确定模型:(暂定确切的模型)

三、模型训练:(根据样本数据计算模型参数)

四、模型评估: (根据测试数据,评估模型的预测性能)

note:深度学习可学习 feature

===========================================================================================

—–>确定特征—->数据探索——>数据质量分析——–> 缺失值:

1.统计含有缺失值的样本数目  及  缺失率

2.缺失值的处理:

    1> 删除含有(一个或多个)缺失值的样本 (从 行 的角度考虑)

    2> 删除缺失值太多的特征(从 列 的角度考虑)

    3> 对缺失值进行插补

        —— 均值mean(默认的方法)
        —— 中位数median
        —— 众数 most_frequent
        —— 固定值插补 (根据背景知识用某些常量进行插补)
        —— 最近邻插补 (寻找最相似的样本,用该样本对应的属性进行插补)
        —— 回归方法 (用没有缺失的数据建立回归方程预测不完整的样本数据)
        —— 插值法 (利用该变量已有数据 建立合适的插值函数 进行插补)

    4> 不处理(有些框架可处理数据缺失的情况,如:xgboost)

猜你喜欢

转载自blog.csdn.net/LN_IOS/article/details/80740231