python机器学习基础6之处理缺失value数据(cook book)

missing data handling

思路图:

缺失数据处理
1.删除该数据
2.删除该列数据
填充预测的数据
Imputer

将训练集training set 的label去掉后,复制,然后找到NaN的位置:

sample_incomplete_rows = housing[housing.isnull().any(axis=1)]

1.第一种:
subset 表示含有后面字样的一列,不写这个就要具体把所有的features 都写全,才能进行操作。

dropna( subset = [ ’ '] )

sample_incomplete_rows.dropna(subset=["total_bedrooms"])    # option 1

2.第二种:

dropna( ’ ’ , axis = 1)

sample_incomplete_rows.drop("total_bedrooms", axis=1)       # option 2

3.第三种:
fillna(strategy , inplace = True )

median = housing["total_bedrooms"].median()

sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3

sample_incomplete_rows

综合以上,sklearn 有个专门的class: SimpleImputer.

sklearn.impute.SimpleImputer

 from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
 #创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")

记得去除非数值的列,统计学计算只能进行数值计算。
例如:housing表格中,ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。

housing_num = housing.drop('ocean_proximity', axis=1)
# 拟合数据
imputer.fit(housing_num)

得到:
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)

# 数据转换
X = imputer.transform(housing_num)

然后转换成dataframe 结构(pandas独有)

housing_tr = pd.DataFrame(X, columns=housing_num.columns,
                          index=housing_num.index)
housing_tr.head()

ps: imputer.statistics_ 可以用来查看数据

猜你喜欢

转载自blog.csdn.net/weixin_43702920/article/details/95568049
今日推荐