データの前処理パンダ
- ダーティデータ
- Nullの扱い
- 値の処理が繰り返されます
- 外れ値
- データ型変換
- 構造的な問題
- インデックスの設定
************************************************** ************************************************** *************
- Nullの扱い
*表示df.isnull()
*削除df.dropna()を削除するには、デフォルトは、このラインのNULL値が含まれており、この行がすべてのNULL、セットdf.dropnaあるならば、削除(方法=「すべて」)
*充填df.fillna()df.fillna({ "性別": "M"、 "年齢": "30"}) - 複数の列は、異なる値で充填
- 値の処理が繰り返されます
*削除df.drop_duplicatesは()デフォルトのラインは、最初の発生を保つ保持=「最後の」すべての重複を削除キープ= Flaseの最後の発生を予約
- 外れ値の検出と治療
*検出:データの下に/オーバー通常のデータと比較します。(正常範囲にわたって指定、図ボックスの垂直エッジ外点、正規分布偏差の値は3σ超えます)
*処理:削除、充填、研究における特別な値--Pythonフィルタ、(置き換え)、など
- データ型変換
.dtype()データ型変換データ型.astype(「のfloat64」)を表示します
- インデックスの設定
*追加のインデックス:df.index = [1,2,3,4,5]
*インデックスをリセットします。df.set_index(「注文番号」を) - 注文番号でインデックスが--set_index新しいインデックスレベルとして()2 /パラメータ上を通過させました
*名前の変更インデックス:df.rename(インデックス= {1: ""、2 "2"、3 "3"}、列= { "注文番号": "ニュー・オーダーID"})
*リセットインデックス:階層索引の場合、列のデフォルトへのインデックスは、すべての変換されたdf.reset_index()
(レベル= 0)df.reset_index - 列にレベル1の指標 - 第0列df.reset_index(レベル= 1)へのインデックス