まずチェックデータ形式:
data.shape
表示データの種類と割合の非NULL値の数
data.info()
パッド入りSimpleImputerを使用します
from sklearn.impute import SimpleImputer as si
imp_mean=si()
デフォルトは、平均パラメータで満たされている次のとおりです。
- missing_values:型はnull。デフォルトnp.nan
注、numpyのはfillnaのみnp.nanを埋めることができ、ここであなたがnull値の種類を指定することができています。たとえば、
?
またはN/A
- 戦略:可选:平均値、中央値、most_frequent、定数
- fill_value:定数何数値利用可能埋めます。
- コピー:コピーするかどうか
データは、一般的に満たされた平均値で、連続しているとき。データは、会衆の数で満たされ、カテゴリです。
?たとえば、値がnullのとき、0で埋め:
imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)
ここで注意し、データは、それがゼロ次元のであれば、それは最初の一次元にならなければならないです。
data_=data.列名.values.reshape(-1.1)
平均値を使用することに加えて、0、モード、中央値。また、使用することができます:アルゴリズム、複数の貧しいメイクアップのように。しかし、森林が比較的低いランダム説明を充填したとして。