正規化の完全な理解(正規化)

まず、損失関数の視覚化を理解する必要があります

パラメータ空間の損失関数の輪郭マップには、同じ損失値満たすソリューションが無限あります

損失関数に正規項を追加する一般的な形式:
L = ∑ i = 1 n [yi − ∑ j = 1 p(wj ∗ xi)− b] + λ∑ j = 1 p ∣ wj ∣ q L = \ sum_ {i = 1} ^ n [y_i- \ sum_ {j = 1} ^ p(w_j * x_i)-b] +λ\ sum_ {j = 1} ^ p | w_j | ^ qL=i = 1n個[j = 1PwJバツb ]+λj = 1PwJq

私たちは、作るWJ | | Q \ sum_ {J = 1} ^ P | w_j | ^ QΣjを= 1つのPj = 1PwJ異なるqqのq下の画像Q

損失関数の可視化、我々は損失関数描いiは1からn [YI - ΣJ = 1 P(のWi * XI) - B] =Σ\ sum_ {iは1 =} ^ N [y_i- \ sum_を{j = 1} ^ p(w_i * x_i)-b]i = 1n個[j = 1Pwバツb ]等高線形式、正規項のない損失関数画像と正規画像を組み合わせた場合:

左の写真の最も外側の円を取り、損失関数の値が最も外側の円に対応する値に達したら、w 1 w_1w1そしてw2 w_2w2数は無限にあるので、l 1l_1を足すとl1通常の用語は、無限の数から1つを選択することを意味します。これは、無限の数w 1 + w 2 w_1 + w_2からのものです。w1+w2最小のもの。直線が複数の輪郭線と交差する場合、これらの交差点でw 1 + w 2 w_1 + w_2w1+w2これらはすべて等しいです。このとき、図のポイント5に示すように、輪郭が最小のソリューションが選択されます。

右の写真は同じですl2 l_2l2初めて輪郭に接する点に対応する通常のw1 w_1w1そしてw2 w_2w2解の数は無限ですw1 2 + w 2 2 w_1 ^ 2 + w_2 ^ 2w12+w22最小のもの。

したがって、輪郭と通常の項の最初の交点が最適なソリューションであると結論付けることができます。通常の用語は、解決するパラメーター空間の範囲を縮小します。

https://blog.csdn.net/zandaoguang/article/details/107970123
http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/#ed61992b37932e208ae114be75e42a3e6dc34cb3http://

ベイジアンの観点からの正規化の深い理解-
必見

L0を通常の用語として使用してみませんか?
理論的な観点からは、L0は確かにスパースソリューションの最良の正規用語ですが、機械学習の特徴の次元は非常に大きいことがよくあります。多くの係数があることも理解できます。L0を解くことは、再びNP難しい問題です。これは、実際のエンジニアリングアプリケーションでは非常に制限されており、実行可能ではありません。

なぜスパースソリューションを取得する必要があるのですか?
この質問は絶対的なものではありません。統計的に言えば、スパースソリューションはモデルのオーバーフィットの問題を軽減でき、結局のところ、モデルの複雑さを軽減できます。つまり、一部の属性を無効にすることができます。

おすすめ

転載: blog.csdn.net/weixin_38052918/article/details/107814978