【python】データマイニング分析とクリーニング - 標準化(データ正規化)処理方法のまとめ


この記事へのリンク: https://blog.csdn.net/weixin_47058355/article/details/130342784?spm=1001.2014.3001.5501

序文

データの標準化とは、規模や単位、範囲が異なるデータを統一した基準値に変換し、比較・分析することを指します。
#この記事ではタイタニック号のデータセットを使用しています。kaggle からリンクを見つけることができます:ポータル

1. データの標準化

1.1 10 進数の正規化

Min-Max 正規化は一般的なデータ正規化方法の 1 つで、元のデータの線形変換を通じてデータを [0,1] 間隔にマッピングします。
10 進数の標準化の利点は、シンプルで簡単で、データを [0,1] 間隔に効果的に圧縮できるため、後続の処理に便利であることです。ただし、元のデータに極値や外れ値が存在する場合、正規化結果に大きな変動が生じる可能性があるため、実際の応用においては、データの規格に応じて適切なデータ正規化手法を選択する必要があることに注意してください。特定の状況。

def MinMaxScale(data):
     return(data-data.min())/(data.max()-data.min())
MinMaxScale(data['Fare'])

ここに画像の説明を挿入
ここに画像の説明を挿入

1.2 標準偏差(Zスコア)の標準化

標準偏差の正規化もデータの前処理でよく使用される方法で、分散の標準化に似ていますが、標準化のベンチマークとして標準偏差を使用します。具体的には、標準偏差を標準化する場合、各データ ポイントと全体の平均の差を計算し、これらの差をデータ セットの標準偏差で割って、新しい正規化されたデータ セットを取得する必要があります。
標準偏差正規化の利点は、各データ ポイントと全体の平均の間の距離を考慮し、この距離を標準偏差と比較して正規化するため、外れ値をより適切に処理できることです。標準偏差の標準化により、結果に対するさまざまな次元の測定単位の影響を排除できるため、さまざまな変数をより公平に比較​​できます。
標準偏差の標準化を実行する場合、データセットに極端な値 (つまり、外れ値) が存在する場合、それらは標準偏差の計算に大きな影響を及ぼし、標準化された結果に影響を与える可能性があることに注意してください。したがって、実際のアプリケーションでは、外れ値の検出と処理のために他の方法を組み合わせる必要があります。

def Z_score_Scale(data):
     return(data-data.mean())/data.std()
Z_score_Scale(data['Fare'])

ここに画像の説明を挿入

定義した関数を使用することに加えて、ライブラリを使用することもできます。

from sklearn import preprocessing
data=pd.read_csv('./Titanic_train.csv') #读取文件
scaler = preprocessing.StandardScaler() #获得转换容器
data['Fare'] = scaler.fit_transform(data['Fare'].values.reshape(-1,1))#进行转换
data['Fare']

ここに画像の説明を挿入

1.3 小数位取りの標準化

この手法の目的は、データの小数点位置を移動することで特徴量をスケーリングし、より小さい範囲に収めることで、モデルのトレーニングの効率と精度を向上させることです。
10 進スケーリングの標準化により、データの分布をより集中させ、固有値のサイズの違いによって引き起こされるモデルのトレーニングの困難を回避し、計算量とストレージ スペースの消費を削減することもできます。ただし、この方法はデータセット内の極値に依存しているため、外れ値のあるデータセットではエラーが発生する可能性があることに注意してください。

def Decimal_Scale(data):
     return  data/10**(np.log10(data.abs().max()))
Decimal_Scale(data['Fare'])

ここに画像の説明を挿入

要約する

データ正規化の利点は次のとおりです。

モデルの精度と信頼性を向上させます。標準化により、異なるスケールやデータ単位の影響が排除され、異なる変数間の比較がより公平になり、それによってモデルの予測精度と信頼性が向上します。

データの比較と分析を容易にします。標準化されたデータは同様の規模、範囲、分布を持っているため、データ間の関係や傾向を発見するために、より便利に比較および分析できます。

データ処理の複雑さを軽減します。標準化によりデータを統一された標準値に変換できるため、データ処理の複雑さと困難さが軽減され、時間と人件費が節約されます。

つまり、データの標準化はデータ分析において不可欠なステップであり、これによりモデルの精度と信頼性が向上し、データの比較と分析が容易になり、データ処理の複雑さが軽減されます。

お友達はメッセージを残して、「いいね」を押して集めてください。役に立った場合は、コーヒーを買ってきてください。

おすすめ

転載: blog.csdn.net/weixin_47058355/article/details/130342784
おすすめ