機械学習の基礎のためのデータ正規化

正規化の理由

機械学習トレーニングを実行する場合、通常、データ セットには複数の異なる特徴が含まれます。たとえば、土壌重金属データ セットでは、各サンプルは経度、緯度、高度、さまざまな重金属含有量などの特徴を含むサンプリング ポイントを表します。フィーチャによって使用される寸法には大きな違いがあり、それが異なるフィーチャの値の間に大きな違いをもたらします。このデータセットを実験に使用する場合、数値の変化間隔が小さい一部の特性指標が対象特性データに及ぼす影響が無視される可能性が高く、実験結果に直接影響を与えます。
正規化前のデータ:
ここに画像の説明を挿入

上記の問題を解決するには、このデータセットを関連実験に使用する前に、通常、正規化手法を使用してデータを前処理する必要があります。正規化手法は機械学習の基本的な作業であり、一般に、異なるデータを同じカテゴリに分類することとして理解できます。正規化方法には 2 つの形式があり、1 つは処理を容易にするために数学的手法によってすべてのデータを 0 から 1 の範囲にマッピングする方法、もう 1 つは次元化された式を無次元の式に変更する方法です。ほとんどの場合、機械学習を実行する場合はすべてのデータを 0 から 1 の範囲にマッピングするだけで十分であるため、この形式でのいくつかの正規化方法を個別に紹介します。
正規化されたデータ:
ここに画像の説明を挿入

1. 最大値と最小値の正規化

マックスミン正規化。この方法は最も単純な方法であり、主に特性変数ごとにこの特性変数の値をすべて走査し、最大値と最小値を保存する必要があります。この特性変数の各値と比率関係を計算することによって、最大値と最小値の間の値を使用して、この値を間隔 0 から 1 にマッピングします。具体的な計算式は次のとおりです。
ここに画像の説明を挿入

ここで、x は元のデータを表し、x_min はこの特徴変数の最小値を表し、x_max はこの特徴変数の最大値を表し、x^* は正規化されたデータを表します。

正規化手法は値を 0 と 1 の間の間隔にマッピングするため、トレーニング プロセスでは、ターゲット値に適合するように入力特徴とパラメーターの計算を通じて出力値を取得する必要があるため、ターゲット特徴変数は正規化処理も行われ、このとき、トレーニング パラメータの値は正規化されたデータに最適化されます。学習済みモデルを予測に使用する際に、元の次元のデータを得るために、計算されたデータを非正規化する必要がありますが、この正規化方法による非正規化計算方法は次のとおりです。
ここに画像の説明を挿入

2. Zスコアの標準化

この方法と最大最小正規化方法の最大の違いは、最大最小正規化方法は同じ特性変数の下で最大値と最小値を使用するのに対し、この方法は同じ特性変数の下で平均と標準偏差を使用することです。この正規化方法で正規化されたデータは、データの分布に関して平均0、標準値1の標準正規分布に準拠します。この正規化方法の計算式は次のとおりです。
ここに画像の説明を挿入

このうち、μはこの特性変数の数値平均を表し、σはこの特性変数の数値標準偏差を表します。

同様に、対象の特徴量を学習させる場合も、元の次元のデータを得るために計算結果を非正規化する必要があり、この正規化方法に対応する非正規化式は次のとおりです。
ここに画像の説明を挿入

3. さまざまな手法の適用

正規化方法には上記 2 つ以外に、Sigmod 関数変換、log 関数変換、逆正接関数変換などの正規化方法があり、サイズは区間 0 ~ 1 にマッピングされます。
異なる正規化手法の実装方法が異なるため、実際の問題を解決する際の適用シナリオも異なります。たとえば、分類やクラスタリングの問題を扱う場合、異なる正規化手法間の類似性を測定するために距離値を使用する必要があります。現時点では、Z スコア正規化手法を使用してデータを正規化すると、より良い結果が得られますが、距離測定が含まれていない場合、またはデータの分布が正規分布に準拠していない場合は、最大および最小の正規化方法。協調複合ニューラル ネットワーク モデルを使用して土壌の重金属含有量を予測する場合、使用されるデータには測定が含まれないため、採用されるデータ正規化方法は最大正規化と最小正規化です。

おすすめ

転載: blog.csdn.net/weixin_42051846/article/details/130441924