missing data handling
思路图:
将训练集training set 的label去掉后,复制,然后找到NaN的位置:
sample_incomplete_rows = housing[housing.isnull().any(axis=1)]
1.第一种:
subset 表示含有后面字样的一列,不写这个就要具体把所有的features 都写全,才能进行操作。
dropna( subset = [ ’ '] )
sample_incomplete_rows.dropna(subset=["total_bedrooms"]) # option 1
2.第二种:
dropna( ’ ’ , axis = 1)
sample_incomplete_rows.drop("total_bedrooms", axis=1) # option 2
3.第三种:
fillna(strategy , inplace = True )
median = housing["total_bedrooms"].median()
sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3
sample_incomplete_rows
综合以上,sklearn 有个专门的class: SimpleImputer.
sklearn.impute.SimpleImputer
from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
#创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")
记得去除非数值的列,统计学计算只能进行数值计算。
例如:housing表格中,ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。
housing_num = housing.drop('ocean_proximity', axis=1)
# 拟合数据
imputer.fit(housing_num)
得到:
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)
# 数据转换
X = imputer.transform(housing_num)
然后转换成dataframe 结构(pandas独有)
housing_tr = pd.DataFrame(X, columns=housing_num.columns,
index=housing_num.index)
housing_tr.head()
ps: imputer.statistics_ 可以用来查看数据