03仕上げPython11、パンダ

データの前処理パンダ

 

- ダーティデータ

  • Nullの扱い
  • 値の処理が繰り返されます
  • 外れ値
  • データ型変換 

- 構造的な問題

  • インデックスの設定

************************************************** ************************************************** *************

  • Nullの扱い

                *表示df.isnull()

                *削除df.dropna()を削除するには、デフォルトは、このラインのNULL値が含まれており、この行がすべてのNULL、セットdf.dropnaあるならば、削除(方法=「すべて」)

                *充填df.fillna()df.fillna({ "性別": "M"、 "年齢": "30"}) - 複数の列は、異なる値で充填

 

  • 値の処理が繰り返されます

                *削除df.drop_duplicatesは()デフォルトのラインは、最初の発生を保つ保持=「最後の」すべての重複を削除キープ= Flaseの最後の発生を予約

 

  • 外れ値の検出と治療

                *検出:データの下に/オーバー通常のデータと比較します。(正常範囲にわたって指定、図ボックスの垂直エッジ外点、正規分布偏差の値は3σ超えます)

                *処理:削除、充填、研究における特別な値--Pythonフィルタ、(置き換え)、など

 

  • データ型変換

                .dtype()データ型変換データ型.astype(「のfloat64」)を表示します


 

  • インデックスの設定

                *追加のインデックス:df.index = [1,2,3,4,5]

                *インデックスをリセットします。df.set_index(「注文番号」を) - 注文番号でインデックスが--set_index新しいインデックスレベルとして()2 /パラメータ上を通過させました

                *名前の変更インデックス:df.rename(インデックス= {1: ""、2 "2"、3 "3"}、列= { "注文番号": "ニュー・オーダーID"})

                *リセットインデックス:階層索引の場合、列のデフォルトへのインデックスは、すべての変換されたdf.reset_index()   

                                      (レベル= 0)df.reset_index - 列にレベル1の指標 - 第0列df.reset_index(レベル= 1)へのインデックス 

公開された56元の記事 ウォンの賞賛0 ビュー771

おすすめ

転載: blog.csdn.net/xiuxiuxiu666/article/details/104317098