欠損値(要約)を埋めるsklearn

まずチェックデータ形式:

data.shape

表示データの種類と割合の非NULL値の数

data.info()

パッド入りSimpleImputerを使用します

from sklearn.impute import SimpleImputer as si
imp_mean=si()

デフォルトは、平均パラメータで満たされている次のとおりです。

  • missing_values:型はnull。デフォルトnp.nan

注、numpyのはfillnaのみnp.nanを埋めることができ、ここであなたがnull値の種類を指定することができています。たとえば、?またはN/A

  • 戦略:可选:平均値、中央値、most_frequent、定数
  • fill_value:定数何数値利用可能埋めます。
  • コピー:コピーするかどうか

データは、一般的に満たされた平均値で、連続しているとき。データは、会衆の数で満たされ、カテゴリです。

?たとえば、値がnullのとき、0で埋め:

imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)

ここで注意し、データは、それがゼロ次元のであれば、それは最初の一次元にならなければならないです。

data_=data.列名.values.reshape(-1.1)

平均値を使用することに加えて、0、モード、中央値。また、使用することができます:アルゴリズム、複数の貧しいメイクアップのように。しかし、森林が比較的低いランダム説明を充填したとして。

おすすめ

転載: www.cnblogs.com/heenhui2016/p/10987948.html