pandas-02-データのクリーニングと前処理
この記事では、S はシリーズを表すために使用され、Df はデータフレームを表すために使用されます。
データ クリーニングは、大規模で複雑なデータを処理するために不可欠な手順です。データ クリーニングの一般的な方法としては、欠損値、重複値、外れ値の処理、データ型統計、ビニング、ランダム サンプリング、ベクトル化コーディングおよびその他の方法。各メソッドのコードと例が示され、表にまとめられています。
D. 文字列処理
1. Python 独自の文字列処理関数
- string.split(‘,’) は、指定された区切り文字で文字列を分割します。
- string.strip() はスペースと改行を削除します
- 「::」.join(文字列)
- 文字列内の「,」は、「,」が文字列内にあるかどうかを判断するために使用されます
- string.index(‘,’) は、最初に見つかった ‘,’ のインデックスを返します。見つからない場合は、エラーが報告されます。
- string.find(‘,’) は、最初に見つかった ‘,’ のインデックスを返します。見つからない場合は、-1 を返します。
- string.count(‘,’) は重複しない数値の数を返します
- string.replace(‘,’,’ ‘) ‘, をスペースに置き換えます