【機械学習ノート】データ標準化手法

データ標準化手法

データの標準化

データ分析の前に、通常データを正規化(正規化)し標準化されたデータをデータ分析に使用する必要がありますデータ標準化は、統計データの索引付けです。データ標準化処理には、主にデータの同時トレンド処理と無次元処理の2つの側面が含まれます。

現在、データの標準化には多くの方法があり、線形法(極値法や標準偏差法など)、ポリライン法(3 分割など)、曲線法(半正規分布など)に分類できます標準化方法が異なれば、システムの評価結果に与える影響も異なりますが、残念ながら、データ標準化方法を選択する際に従うべき一般的な規則はありません。


なぜデータを標準化する必要があるのですか?

いわゆるマルチインデックス総合評価法とは、評価対象の異なる側面を記述する複数のインデックスの情報を合成し、総合的なインデックスを得ることにより、評価対象の全体的な評価を行い、水平または垂直の比較を行うものです。

各評価指標の異なる特性により、マルチインデックス評価システムは、通常、異なる寸法および大きさを有します。各インデックスのレベルが大きく異なる場合、元のインデックス値を直接分析に使用すると、包括的な分析で値の高いインデックスの役割が強調され、値レベルの低いインデックスの役割が比較的弱くなります。したがって、結果の信頼性を確保するために、元のインデックスデータを標準化する必要があります。


データ標準化手法

データの共収束プロセスは、主に異なる性質のデータの問題を解決します。異なる性質のインジケーターの直接合計は、異なる力の包括的な結果を正しく反映できません。すべてのインジケーターが評価計画に同じ影響を与えるように、最初に逆インジケーターデータの性質を変更することを検討する必要があります。 、次に合計して正しい結果を取得します。

データ無次元処理は、主にデータの比較可能性を解決します。

データの標準化には多くの方法があり、一般的に使用されるのは「最小-最大正規化」(最小-最大正規化)、「Zスコア正規化」、および「10進キャリブレーションによる標準化」です。上記の標準化処理後、元のデータは無次元の指標評価値に変換されます。つまり、各指標値は同じ量的レベルにあり、包括的な評価と分析を実行できます。

1.最小-最大正規化

分散標準化とも呼ばれ、元のデータの線形変換であるため、結果は区間[0,1]に入ります。変換関数は次のとおりです。

 

分散の標準化

  • ここで、maxはサンプルデータの最大値、minはサンプルデータの最小値です。
  • この方法の欠点の1つは、新しいデータが追加されると、maxとminが変化する可能性があるため、再定義する必要があることです。

2.ログ関数変換

10に基づく対数関数変換方式も実現できます。具体的な方式はインターネットで公開されています。多くの紹介がx = log10(x)です。実際には問題があります。この結果は必ずしも[0,1 ]間隔はlog10(最大) *で除算する必要があります。最大はサンプルデータの最大値であり、すべてのデータは1以上でなければなりません。

3. Atan関数変換

逆正接関数を使用してデータを正規化することもできます。この方法を使用する場合、マップする間隔が[0,1]の場合、データは0以上である必要があることに注意してください。 1,0]間隔。

4. zスコアの標準化(ゼロ平均正規化)

すべての標準化されたデータの結果は[0,1]にマッピングされるのではなく、最も一般的な方法は、Z規格を標準化することであり、SPSSは、としても知られている最も一般的に使用される標準化された方法であり、標準偏差の標準化

zスコアの標準化

  • この方法では、元のデータの平均と標準偏差に基づいてデータを正規化します。zスコアを使用して、Aの元の値xをxに正規化します。
  • Zスコアの標準化方法は、属性Aの最大値と最小値が不明である場合、または値の範囲を超える外れ値データがある場合に適しています。
  • spssのデフォルトの標準化方法はz-score標準化です。
  • Excelでzスコアを標準化する方法:Excelには既製の関数がないため、段階的に計算する必要がありますが、標準化された式は非常に簡単です。

手順は次のとおりです
。1.各変数(指標)の算術平均(数学的期待値)xiと標準偏差siを見つけます
。2。標準化を実行します
。zij=(xij-xi)/ si
ここで、zijは正規化後の変数値です; Xijは実際の変数値です。
3.逆インジケータの前の符号を逆にします。
標準化された変数の値は、0を中心に上下に変動します。0より大きい値は平均レベルより高いことを意味し、0より小さい値は平均レベルより低いことを意味します。

5.正規化方法

 


 

元の記事646件を公開 賞賛された198件 690,000回

おすすめ

転載: blog.csdn.net/seagal890/article/details/105312351