pandas の入門から熟練度まで - データ クリーニング - 文字列処理


この記事では、S はシリーズを表すために使用され、Df はデータフレームを表すために使用されます。
データ クリーニングは、大規模で複雑なデータを処理するために不可欠な手順です。データ クリーニングの一般的な方法としては、欠損値、重複値、外れ値の処理、データ型統計、ビニング、ランダム サンプリング、ベクトル化コーディングおよびその他の方法。各メソッドのコードと例が示され、表にまとめられています。

D. 文字列処理

1. Python 独自の文字列処理関数

  • string.split(‘,’) は、指定された区切り文字で文字列を分割します。
  • string.strip() はスペースと改行を削除します
  • 「::」.join(文字列)
  • 文字列内の「,」は、「,」が文字列内にあるかどうかを判断するために使用されます
  • string.index(‘,’) は、最初に見つかった ‘,’ のインデックスを返します。見つからない場合は、エラーが報告されます。
  • string.find(‘,’) は、最初に見つかった ‘,’ のインデックスを返します。見つからない場合は、-1 を返します。
  • string.count(‘,’) は重複しない数値の数を返します
  • string.replace(‘,’,’ ‘) ‘, をスペースに置き換えます

おすすめ

転載: blog.csdn.net/qq_48081868/article/details/132512720