Huashuリーディングノート(6)-ディープラーニングの正則化

すべてのメモの概要:「ディープラーニング」フラワーブック-読書メモの概要

「ディープラーニング」PDF無料ダウンロード:「ディープラーニング」

1.パラメータノルムペナルティ

多くの正則化法は目的関数JJを渡しますJはパラメータノルムペナルティΩ(θ)\ varOmega(\ theta)を追加しますΩθ は、モデル(ニューラルネットワーク、線形回帰、ロジスティック回帰などの学習能力を制限します。正則化された目的関数をJ ^ \ hatJと表記します。J^J ^(θ; X、y)= J(θ; X、y)+αΩ(θ)\帽子J(\シータ; X、y)= J(\シータ; X、y)+ \ alpha \ varOmega(\ theta)J^θ;X および=J θ ;X および+α Ωθ α∈[0、∞)\ [0アルファ\ \ inftyの)
A[ 0 はペナルティ項Ω\ varOmegaΩおよび標準目的関数J(X;θ)J(X; \ theta)J X ;θ 比較的寄与したハイパーパラメータ。ウィルα\アルファ何正則はありません0手段にセット。α\ alphaαが大きいほど、対応する正則化ペナルティが大きくなります。

  1. L 2 L ^ 2 L2正則化
  2. L 1 L ^ 1 L1正則化

2.制約としてのノルムペナルティ

一般化されたラグランジュ関数を作成して、制約付きの関数を最小化します。L(θ、α; X、y)= J(θ; X、y)+α(Ω(θ)-k)L(\ theta、\ alpha; X、y)= J(\ theta; X、y )+ \ alpha(\ Omega(\ theta)-k)L θ α ;X および=J θ ;X および+α Ω θ k
この制約問題の解は次の式で与えられます。θ∗ =argmin⁡θmax⁡α、α≥0L(θ、α)\ theta ^ * = \ argmin_ \ theta \ max _(\ alpha、\ alpha \ ge0} L(\ theta、\ alpha)θ=θa r gm i nα α 0最大L θ a

α∗ \ alpha ^ *を修正できますA、この問題はθ\ thetaにのみ関連していると見なしてくださいθ有関連関数数: θ∗ = argmin⁡θL(θ、α∗)= argmin⁡θJ(θ; X、y)+α∗Ω(θ)\ theta ^ * = \ argmin_ \ theta L( \ theta、\ alpha ^ *)= \ argmin_ \ theta J(\ theta; X、y)+ \ alpha ^ * \ varOmega(\ theta)θ=θa r gm i nL θ A=θa r gm i nJ θ ;X および+A Ωθ

3つ、正則化と制約不足の問題

正則化のほとんどの形式は、劣決定問題に適用される反復法の収束を保証できます。

ムーアペンローズを使用して、劣決定線形方程式を解くことができます。また、前述の疑似逆定義を使用する必要があります。

4、データセットの拡張

機械学習モデルをより一般化するための最良の方法は、トレーニングにより多くのデータを使用することです。

データセットの拡張は、特定の分類問題であるオブジェクト認識に特に効果的な方法です。画像は高次元であり、さまざまな大きな変動要因が含まれており、その多くは簡単にシミュレートできます。

データセットの拡張は、音声認識タスクにも効果的です。

機械学習ベンチマークの結果を比較するときは、必要なデータセットの拡張を考慮することが重要です。通常の状況では、人工的に設計されたデータセット拡張スキームにより、機械学習テクノロジーの汎化誤差を大幅に減らすことができます。

5、ノイズの堅牢性

堅牢性とは、システムまたは組織が悪条件に抵抗または克服する能力を指します。

正則化されたモデルでノイズを使用する別の方法は、ノイズを重みに追加することです。この手法は、主にリカレントニューラルネットワークに使用されます。

6つの半教師あり学習

半教師あり学習の枠組みの下で、P(x)P(x)P x およびP(x、y)P(x、y)によって生成されたラベルなしサンプルP x y のラベル付きサンプルは、P(y∣x)P(y | x)を推定するために使用されます。P Y | X 又はに従ってXXxはyyを予測しますおよび

7つのマルチタスク学習

マルチタスク学習は、いくつかのタスクの例を組み合わせることで一般化を改善する方法です(これはパラメーターに課せられたソフトな制約と見なすことができます)。追加のトレーニングサンプルは、同じ方法でモデルのパラメーターをプッシュして、より一般化します。モデルの一部がタスク間で共有される場合、モデルのこの部分は、適切な値にさらに制約されます(共有が合理的であると仮定)。より一般化する。

  1. 特定のタスクのパラメーター(それぞれのタスクのサンプルからは、適切な一般化のみを実現できます)。
  2. すべてのタスクで共有される共通パラメーター(すべてのタスクのプールされたデータから利益を得る)。

8.早期終了

十分な表現力または過剰適合を備えた大きなモデルをトレーニングする場合、トレーニングエラーは時間の経過とともに徐々に減少しますが、検証セットエラーは再び増加することがよくあります。早期終了は、非常に効率的なハイパーパラメータ選択アルゴリズムと考えることができます。

早期終了は非常に目立たない形式の正則化であり、基本的なトレーニングプロセス、目的関数、または許可されたパラメーター値のセットを変更する必要はほとんどありません。これは、学習のダイナミクスを中断することなく、早期終了を簡単に使用できることを意味します。

ナイン、パラメーターバインディングとパラメーター共有

私たちがしばしば表現したい一般的な依存関係は、特定のパラメーターが互いに近くなければならないということです。次の状況を考えてみます。同じ分類タスク(同じカテゴリ)を実行する2つのモデルがありますが、入力分布はわずかに異なります。

あるモデル(教師ありモードでトレーニングされた分類器)のパラメーターを正規化して、教師なしモードでトレーニングされた別のモデルのパラメーターに近づけます(入力データの観測された分布をキャプチャします)。この構造により、多くの分類モデルのパラメーターを、対応する教師なしモデルのパラメーターと一致させることができます。

パラメータノルムペナルティは、パラメータを正規化して互いに近づける方法であり、より一般的な方法は、制約を使用することです。つまり、特定のパラメータを強制的に等しくします。さまざまなモデルまたはモデルコンポーネントを一意のパラメーターセットを共有するものとして解釈するため、この正則化方法は通常、パラメーター共有と呼ばれます。

CNNは、画像内の複数の場所でパラメータを共有することにより、この機能を考慮しています。同じ特徴(同じ重みを持つ隠しユニット)は、入力の異なる位置で計算されます。パラメータ共有により、CNNモデルのパラメータ数が大幅に削減され、それに応じてトレーニングデータを増やすことなく、ネットワークのサイズが大幅に増加します。

10、スパース表現

もちろんL1 L ^ 1L1ペナルティは、表現をスパースにする方法の1つです。他の方法には、表現の前にスチューデントtから導出されたペナルティ(Olshausen and Field、1996; Bergstra、2011)およびKL発散ペナルティ(Larochelle and Bengio、2008a)が含まれます。

非表示のユニットを含むモデルは、本質的にスパースになる可能性があります。

11.バギングおよびその他の統合方法

バギング(ブートストラップ集約)は、複数のモデルを組み合わせることで汎化誤差を減らす手法です。主なアイデアは、いくつかの異なるモデルを個別にトレーニングしてから、すべてのモデルにテストサンプルの出力に投票させることです。これは、モデル平均化と呼ばれる機械学習の従来の戦略の例です。この戦略を使用するテクノロジーは、統合アプローチと呼ばれます。

モデルの平均化が機能する理由は、通常、異なるモデルがテストセットでまったく同じエラーを生成しないためです。

さまざまな統合方法により、さまざまな方法で統合モデルが構築されます。たとえば、アンサンブルの各メンバーは、異なるアルゴリズムと目的関数を使用して、完全に異なるモデルにトレーニングできます。

モデルの平均化は、汎化誤差を減らすための非常に強力で信頼性の高い方法です。

12.ドロップアウト

ドロップアウトは、モデルの大規模なクラスを正則化する方法を提供します。これは、計算には便利ですが、強力です。最初の近似では、ドロップアウトは、多数のディープニューラルネットワークを統合する実用的なバギング方法と見なすことができます。

  • バギングの場合、すべてのモデルが独立しています。
  • ドロップアウトの場合、すべてのモデルがパラメーターを共有し、各モデルは親ニューラルネットワークパラメーターの異なるサブセットを継承します。

13、対決訓練

敵対的トレーニング(外乱に対してトレーニングセットサンプルでネットワークをトレーニングする)を通じて、元の独立した同一分布のテストセットのエラー率を減らすことができます。

14.接線距離、接線伝搬、およびマニホールド接線分類子

接線距離アルゴリズムはノンパラメトリック最近傍アルゴリズムであり、使用されるメトリックは一般的なユークリッド距離ではありませんが、集約確率に関する隣接する多様体の知識から導出されます。

接線伝搬アルゴリズムは、追加のペナルティを使用してニューラルネットワーク分類器をトレーニングするため、ニューラルネットワークの各出力はf(x)f(x)になります。f x は、既知の変化要因に対して局所的に不変です。

接線伝搬は、データセットの拡張と密接に関連しています。接線伝搬には、二重逆伝播と敵対的トレーニングも含まれます。二重逆伝播正則化により、ヤコビ行列が小さくなり、敵対的トレーニングでは元の入力に近いポイントが検出され、トレーニングモデルはこれらのポイントで元の入力と同じ出力を生成します。

形状接線分類器は、接線ベクトルの事前分布を知る必要はありません。エンコーダは、ユーザーが接線ベクトルを指定することを回避するためにこの手法を使用して、多様体の接線ベクトルを推定できます。

次の章ポータル:Huashuリーディングノート(7)-深度モデルの最適化

おすすめ

転載: blog.csdn.net/qq_41485273/article/details/112851363