L0、L1、L2 ノルムの原理と機能を簡単に理解する

https://blog.csdn.net/qq_42109740/article/details/104779538このブログ投稿では、L0、L1、および L2 規範の原理と機械学習におけるそれらの役割について非常にわかりやすく説明しています。ブロガーに関連する概念 自己理解として、この分析を読んだ読者は、これらの規範の役割を理解するのに非常に役立つと思います。読む前に、以下のブロガーによって書かれたより体系的な紹介文を読んでから、私の記事を読む ; 機械学習における規範の適用を理解している場合は、私の記事を直接読むことができます。https://blog.csdn.net/qq_42109740/article/details/104779538上記は原文へのリンクですが、この記事は便宜のために転載されています

1. 結論を先に言う


L0、L1、L2 規範の定義と機械学習におけるそれらの役割については、誰もがすでに理解していると思います。具体的には次のとおりです。

(1) L0 ノルムは、ベクトル内の非ゼロ要素の数を指します。その役割によりモデル パラメーターのスパース性を改善できますが、L0 ノルムの最適化と解決は困難です。

(2) L1 ノルムは、ベクトル内の各要素の絶対値の合計を指します。この関数はモデル パラメーターのスパース性も向上させることができ、その効果は L0 ノルムほど良くありませんが、解決が容易であり、より一般的に使用されています。

(3) L2 ノルムは、ベクトルの要素の二乗の合計と平方根を指します。その機能は、モデルのすべてのパラメーターのサイズを削減することです。これにより、モデルのオーバーフィッティングを防ぐことができ、これも非常に一般的に使用されます。

2. はじめに


まず、スパース性の概念を理解しましょう。簡単かつ直観的に説明すると、データのセット (x1、x2、x3、...、x1000 とします) には、その一部 ( ( x100、x200 ...、x1000) これら 10 セットのデータのサイズ。大きい値は 1、その他は 0 または 0 に近い値であり、このデータ セットが疎であることを意味します。では、なぜデータの疎性を考慮する必要があるのでしょうか? 「圧縮センシング」を思い浮かべる人も多いと思いますが、直感的な例を挙げます。患者がある病気であるかどうかを判断するための判断指標が 100 個あり、そのうちの 5 個が非常に重要であると医師に評価してもらったとします。 100 の指標それぞれを検討するのは間違いなく大きな作業負荷であり、他の 95 の指標に関する多くの作業は無駄であるため、ここではこれら 5 つの指標 (データ スパーシティ処理) のみを考慮する必要があります。これらの基準を使用できます。次に、主にスパース性の観点から、L0、L1、L2 規範についての私の理解を詳しく説明します。

3. 分析


一次線形回帰問題を考えてみましょう。

このタイプの問題では、これらの点に適合する y=wx+b の方程式を見つけたいと考えています。方法も非常に簡単です。最小二乗法は次のとおりです: min{∑(yiactual-yi)2} は min{ ∑ (yi-(wxi+b))2}, この単純な問題では、定解 w0 と b0 が得られますが、これはパラメータ w に対するもので、このとき方程式を y= w1x+w2x とすると、 +b、つまり、w のパラメータは w1 と w2 です。言うまでもなく、ここでは w0=w1+w2 になります。この式を覚えておくことが非常に重要です。

このとき、スパース性を満たすために w1 と w2 が必要な場合はどうすればよいでしょうか? つまり、一方を 0、もう一方を w0 にするのが最善です。さて、引き続き最小二乗方程式を使用して w1 と w2 の値を取得することを考えてみましょう: min{∑(yireal-(w1xi+w2xi+b))2}。実際、この結果は依然として w1+w2=w0 を満たします。 w1 と w2 がどの程度等しいかは決定できず、スパース性も保証できません。

3.1 L0 ノルム:


この時点で制約を追加すると: min{∑(yiactual-(w1xi+w2xi+b))2+λ||w||0}、ここで ||w||0 は w の L0 ノルム、λ は制約項目係数。つまり、この時点で min{∑(yiactual-(w1xi+w2xi+b))2+λ("w1 と w2 の非ゼロの数")} を解決します。最小値を確認するには、上記のものが必要です 両方の項が比較的最小です 2 番目の項の場合、最良の結果は、w パラメーターの 1 つが 0、つまり、w1 または w2 が 0 で、もう 1 つのパラメーターが w0 に等しいことを満たすことです。 (実際には、上記の式によれば、これは w0 よりわずかに小さくなります。ここでは以降、w0 と等しいと仮定しますが、これは解析には影響しません)。したがって、L0 ノルムはパラメーターのスパース性を実現します。

3.2 L1 ノルム


同様に、L1 ノルムを使用した後の最小二乗法の式は次のとおりです: min{∑(yiactual-(w1xi+w2xi+b))2+λ(|w1|+|w2|)}。理解できる画像:

ケース a、つまり w1 と w2 が両方とも正の場合、この時点で、w0=w1+ であるため、上記の式は min{∑(yireal-(w1xi+w2xi+b))2+λ(w1+w2)} になります。 w2 であるため、min{∑(yiactual-(w1xi+w2xi+b))2+λw0} になります。ここで、w0 は固定値であるため、パラメーターの疎さには影響しませんが、ケース b では、一方は正、もう一方は負であるため、(|w1|+|w2|) は大きくなり、これを最小にするためには、結果は w1 が 0、w2=w0 となるため、これも役割を果たします。まばらさの。

3.3 L2 ノルム


同様に、L2 ノルムを導入すると、最小二乗法の式が得られます。式を次のように変換すると、min{∑(yireal-(w1xi+w2xi+b))2+λ(w12+w22)1/2} :min{∑(yiactually-(w1xi+w2xi+b))2+λ((w1+w2)2-2w1w2)1/2}、w0=w1+w2 を導き出します。min{∑(yi In事実 -(w1xi+w2xi+b))2+λ(w02-2w1w2)1/2} の場合、第 2 項: λ(w02-2w1w2)1/2 を最小にするためには、最小条件を満たす必要があります。 w02-2w1w2 の、つまり、-w1w2 が最小であるため、w2=w0-w1 とし、-w1w2=w12-w1w0 を取得します。理解するには、次の図を参照してください。

w1 が w0/2 に等しい場合、その最小値が満たされることがわかります。つまり、L2 ノルムのより大きな効果は、w0 のパラメータ値を w1 と w2 に均等に分配してパラメータを小さくすることです。 w の数が大きい場合、これは他のブロガーが 0 になる傾向があると言っているのと同等ですが、0 に等しくはありません。

分析はここにあります。引き続き L3 ノルムのプロパティを見てみましょう。なぜ L0、1、2 ノルムの分析だけが表示され、L3 ノルムは表示されないのですか。引き続き上記の方法を使用します。最小化の式は次のとおりです。 {∑ (yi real-(w1xi+w2xi+b))2+λ(w13+w23)1/3}、次のように変換されます: min{∑(yi real-(w1xi+w2xi+b))2+λ(( w1+ w2)3-3w1w2(w1+w2))1/3}、2 番目の項目: ((w0)3-3w1w2(w0)​​)1/3 については、変換を続けて次を見つけることができます: -3w1w2(w0)最小値、つまり、L2 ノルム問題に戻る -w1w2 の最小値を求めることです。

4. まとめ


上記の導出と理解の後、L0 は有効なパラメータの数を直接減らすことであることがわかります. L1 については、異なるシンボルを持つパラメータのみが一部のパラメータを 0 にすることができます. L0 と L1 の両方のノルムはモデルのパラメータを作成できますsparse. ; L2 の場合、パラメータを 0 に設定することはできませんが、全体の値を小さくすることはできます。
 

おすすめ

転載: blog.csdn.net/qq_46703208/article/details/129844307