特征工程中缺失值处理

特征工程中缺失值处理

  1. 缺失值极多:把该特征直接舍弃
  2. 非连续特征缺失值适中:把NaN作为一个新类别
  3. 连续特征缺失值适中:给定一个step,离散化,把NaN作为一个type放入到特征中
  4. 缺失值较少:
    1. 利用填充的方法进行处理,常见的有均值,众数,中位数填充;
    2. 用sklearn中的RandomForest模型区拟合数据样本训练模型,然后去填充缺失值;
    3. 拉格朗日插值法

猜你喜欢

转载自blog.csdn.net/zgf605506394/article/details/87371887
今日推荐