正規化されたノート

目次

なぜ正規化するのでしょうか?

正規化にはどのような方法があるのでしょうか?

各メソッドの特性を正規化しますか?

正規化の意味は?

正規化が必要な機械学習アルゴリズムはどれですか?

正規化を必要としない機械学習アルゴリズムはどれですか?


なぜ正規化するのでしょうか?

データの各列のディメンションが異なるため、データの分散間隔にも違いが生じます。例: (人の身長は 180cm または 1.8m です。これら 2 つは同じ意味ですが、単位が異なるため、機械学習では計算プロセスに差異が生じやすいため、データを正規化して変更する必要があります) 。

正規化にはどのような方法があるのでしょうか?

→ リニアスケール変換方法:

y_{i} = \frac{x_{i}}{max(x))}

→範囲変換方法:

y_{i} = \frac{x_{i} - 最小(x)}{最大(x)-最小(x)}

→ 0 平均正規化 (Z スコア法)

y_{i} = \frac{x_{i} - 平均(x)}{\sigma }\シグマは標準偏差です

各メソッドの特性を正規化しますか?

→リニアスケール変換方法とレンジ変換方法

特徴: 元データの線形化方法を[0,1]の範囲に変換し、元データの比例スケーリングを実現します。変数の最大値と最小値(または最大値)を使用して元のデータを特定の範囲内のデータに変換することで、次元や大きさの影響を排除し、分析における変数の重みを変更してさまざまなメトリクスを解決する問題。極値法は無次元変数の処理において変数の最大値と最小値の2つの極値のみに関連しており、他の値とは何の関係もないため、手法が過度に依存することになります。各変数の重みを変更するときの 2 つの極値。

→ 0 平均正規化 (Z スコア法)

特性: つまり、各変数の値とその平均の差を変数の標準偏差で割ったものです。この方法は、無次元化の過程ですべてのデータ情報を利用しますが、この方法は、変換された変数の平均値を同じにするだけでなく、標準偏差も同じにする、つまり、すべての変数を削除しながらも変換します。無次元 変数の変動の度合いの違いであるため、クラスター分析における変換後の各変数の重要度は同等に扱われます。実際の分析では、分析における各変数の重要度は、各ユニット間での各変数の値の差異の度合いに応じて決定されることが多く、差異の度合いが大きいほど分析の重みが大きくなる。

正規化の意味は?

各次元は非次元化されるため、異なる次元の選択が距離計算に与える大きな影響が回避されます。

正規化が必要な機械学習アルゴリズムはどれですか?

距離計算に基づくモデル:KNN

勾配降下法によって解決されるモデル: 線形回帰、ロジスティック回帰、サポート ベクター マシン、ニューラル ネットワーク

正規化を必要としない機械学習アルゴリズムはどれですか?

ツリーモデル: デシジョンツリー、ランダムフォレスト

理由 1: 彼らは変数の値ではなく、変数の分布と変数間の条件付き確率を気にします。

理由 2: 数値スケーリングは分割点の位置に影響を与えないため、ツリー モデルの構造には影響しません。固有値に従ってソートした場合、ソート順は変わらないため、属する分岐点や分岐点は変わりません。さらに、ツリー モデルは勾配降下法を実行できません。ツリー モデル (回帰ツリー) の構築は最適な分割点を見つけることによって行われるため、ツリー モデルは段階的になり、段階点は微分可能ではありません。導出は無意味であり、正規化は必要ありません。

おすすめ

転載: blog.csdn.net/Starinfo/article/details/129818290