正則化と正規化

正則化と正規化という 2 つの概念は、以前はよく誤解されていましたが、この記事では、その誤りを防ぐために特集しています。

1.正規化

正規化の機能は、データの次元を削除するか、データの値を同じ桁数に変換するか、特定の範囲内に制限することです。

1.1 最大最小正規化

つまり、xxを介してxが配置されているデータセットのxxxは正規化されます:
x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x^{'}=\frac{x-x_{\min }}{x_{\max }-x_{\min } }バツ=バツ最大バツバツバツ
其中, x min ⁡ x_{\min } バツx max ⁡ x_{\max }バツ最大データxxの場合xが位置するセット (行/列) の最小値と最大値、正規化後のxxxの範囲は、x ∈ [ 0 , 1 ] x \in [0,1]バツε[ 0 ,1 ]

1.2 平均と分散による正規化 (標準化)

データxxを入れますxを平均 0、分散 1 に変換します。
x ′ = x − μ σ x^{'}=\frac{x-\mu}{\sigma}バツ=pバツメートル
その中でμ \muµσ \sigmaσは、それぞれデータセットの平均と分散です。
このような正規化の後、対応する損失関数は均一な輪郭形状を持ち、勾配降下アルゴリズムを実行するとすぐに収束します。

2.正則化

正則化は主に、過剰適合を回避し、ネットワーク エラーを減らすために使用されます。正則化の式は次のとおりです。
L = ∑ n ( y ^ n − ( b + ∑ wixi ) ) 2 + λ ∑ ( wi ) 2 L=\sum_{n}\left(\hat{y}^{n}- \ left(b+\sum w_{i} x_{i}\right)\right)^{2} +\lambda \sum\left(w_{i}\right)^{2}L=n(y^n( b+wバツ) )2+l( w)2

注 1: 数式は、Li Hongyi 教授の 2020 機械学習コースウェアに由来します
注 2: 一般的に使用される L2 正則化

ここで、y^n\hat{y}^{n}y^n はnn 番目を表しますn個のデータxi x_iバツ 为第 i i 特徴を入力します一般的な損失関数の式と比較すると、正則化とは、損失関数の後に項λ ∑ ( wi ) 2 \lambda \sum\left(w_{i}\right)^{2} を追加することを意味することがわかります。l( w)2、ここでλ ≥ 0 \lambda \geq0l0は正則化の度合いを調整するために使用されます。

注: 通常、係数w 0 w0w 0 w0ため、w 0 は正則化項から省略されます。w 0は、結果がターゲット変数の原点の選択に依存するようにします

この式は、係数wi w_iとなるように、誤差関数にペナルティ項を追加します。w大きな値にはなりません。
次の表は、λ \lambda を視覚的に示しています。係数に対するλの影響:
ln ⁡ λ = − ∞ ln ⁡ λ = − 18 ln ⁡ λ = 0 w 0 * 0.35 0.35 0.13 w 1 * 232.37 4.74 − 0.05 w 2 * − 5321.83 − 0.77 − 0.06 w 3 * 48568.31 − 4 w − 31.057 - 231639.30 - 3.89 - 0.03 W 5 ∗ 640042.26 55.28 - 0.02 W 6 ∗ - 1061800.52 41.32 - 0.01 W 7 ∗ 1042400.18 - 45.95 - 0.00 W 8 |rrr} & \ln \lambda=-\infty & \ln \lambda=-18 & \ln \lambda=0 \\ \hline w_{0}^{*} & 0.35 & 0.35 & 0.13 \\w_{1 }^{*} & 232.37 & 4.74 & -0.05 \\ w_{2}^{*} & -5321.83 & -0.77 & -0.06 \\ w_{3}^{*} & 48568.31 & -31.97 & -0.05\ \w_{4}^{*}&-231639.30&-3.89&-0.03\w_{5}^{*}&640042.26&55.28&-0.02\w_{6}^{*}&-1061800.52&4 &-0.01 \\w_{7}^{*}&1042400.18&-45.95&-0.00\\w_{8}^{*}&-557682.99 & -91.53 & 0.00 \\ w_{9}^{*} & 125201.43 & 72.68 & 0.01 \end{array}w0w1w2w3w4w5w6w7w8w9l=0 . 3 52 3 2 . 3 75 3 2 1 . 8 34 8 5 6 8 . 3 12 3 1 6 3 9 . 3 06 4 0 0 4 2 2 61 0 6 1 8 0 0 . 5 21 0 4 2 4 0 0 . 1 85 5 7 6 8 2 . 9 91 2 5 2 0 1 . 4 3l=1 80 . 3 54 . 7 40 . 7 73 1 . 9 73 . 8 95 5 . 2 84 1 3 24 5 . 9 59 1 . 5 37 2 6 8l=00 . 1 30 . 0 50 . 0 60 . 0 50 . 0 30 . 0 20 . 0 10 . 0 00 . 0 00 . 0 1
λ \lambdaλが小さい場合、モデルのパラメーターが非常に大きくなり、モデルのオーバーフィッティングが容易に発生する可能性がありますλ が徐々に増加すると、係数は再び非常に小さくなり、モデルのフィッティング効果を助長しません。λ \ラムダλ はモデルの複雑さを制御し、過剰適合の程度を決定します。

おすすめ

転載: blog.csdn.net/weixin_43335465/article/details/120636836
おすすめ