パンダでデータを前処理するにはどうすればよいですか?

データ分析と機械学習のプロセスにおいて、データの前処理は非常に重要なステップです。Pandas は、データの前処理を支援する多くの関数を提供する Python の人気のデータ分析ライブラリです。以下に、Pandas で実装できる一般的なデータ前処理手法をいくつか示します。

1. データのインポート

CSV ファイルからデータを読み取り、DataFrame に保存することは、Pandas の「read_csv()」関数を使用すると簡単です。例えば:

import pandas as pd

df = pd.read_csv('data.csv')

2. 欠損値の処理

データには欠損値が存在する可能性があります。Pandas の `fillna()` 関数を使用して、欠損値を指定された値に置き換えます。たとえば、次のコードは、DataFrame 内のすべての欠損値を 0 に置き換えます。

df.fillna(0, inplace=True)

3. 重複する行を削除する

場合によっては、データセット内に重複した行が存在することがあります。これらの重複行は、Pandas の `drop_duplicates()` 関数を使用して簡単に削除できます。例えば:

df.drop_duplicates(inplace=True)

4. 外れ値の処理

外れ値とは、他の値と大きく異なる値です。Pandas の「clip()」関数を使用して、データの範囲を制限できます。たとえば、次のコードは、DataFrame 内の 0 未満のすべての値を 0 に置き換え、100 を超えるすべての値を 100 に置き換えます。

df = df.clip(lower=0, upper=100)

5. データ型変換

場合によっては、データセット内に間違ったデータ型が存在する可能性があります。データ型は、Pandas の `astype()` 関数を使用して正しい型に変換できます。たとえば、次のコードは、DataFrame 内のすべての文字列型の列を整数型に変換します。

df['col_name'] = df['col_name'].astype(int)

6. 機能のスケーリング

特徴のスケーリングは機械学習における重要なステップです。特徴スケーリングは、Pandas の `apply()` 関数を使用して DataFrame の各列に適用できます。たとえば、次のコードは DataFrame 内の各列を正規化します。

df = df.apply(lambda x: (x - x.mean()) / x.std())

上記は、Pandas で実装できる一般的なデータ前処理手法の一部です。これらのヒントは、データをより深く理解し、操作して、データ分析と機械学習を向上させるのに役立ちます。

おすすめ

転載: blog.csdn.net/devid008/article/details/131469119