残差ネットワーク、ドロップアウト正則化、バッチ正規化についての簡単な理解

残留ネットワーク:

残留ネットワークが必要な理由:

残差ネットワークの目的は、トレーニング プロセス中にディープ ニューラル ネットワークが遭遇する劣化の問題、つまり、ネットワーク層の数が増加するにつれて、過剰適合ではなくトレーニング セットの誤差が増加するという問題を解決することです。残余ネットワークの利点は次のとおりです。

  • 残差ネットワークは、スキップ接続により短いバックプロパゲーション パスが提供され、勾配がより浅い層に容易に流れることができるため、勾配の消失または爆発の問題を効果的に軽減できます。
  • 残差ブロックは任意の複雑な関数を近似でき、トレーニング効率を低下させることなくネットワークの深さを増やすことでモデルのパフォーマンスを向上できるため、残差ネットワークはネットワークの表現力を向上させることができます。
  • 残差ネットワークは、残差ブロックを恒等マップに対する小さな摂動としてみなすことができるため、より簡単に最適化できます。これにより、ネットワークの初期化を最適解に近づけることができ、より大きな学習率を使用して収束を高速化できます。

情報理論の観点から見ると、DPI (データ処理格差) の存在により、順方向送信の過程で、レイヤー数が深くなるにつれて、Feature Map に含まれる画像情報はレイヤーごとに減少し、追加されます。 ResNet のダイレクト マッピングでは、レイヤーL+1のネットワークにはレイヤーL よりも 多くの画像情報が含まれている必要があることが保証されています。

ダイレクト マッピングを使用してネットワークのさまざまな層を直接接続するというこのアイデアに基づいて、残留ネットワークが誕生しました。

残余ネットワークとは:

残差ネットワークは、入力を出力に直接追加して残差ブロックを形成できるように、各畳み込み層の後にスキップ接続を追加することを特徴とするディープ ニューラル ネットワークです。

残りのブロック:

残差ネットワークは、一連の残差ブロックで構成されます (下の図)。残差ブロックは次のように表現できます。

 残差ブロックは、直接マッピング部分と残差部分の 2 つの部分に分割されます。 h(xl) は直接マッピングであり、図 1 の左側の曲線として反映されます。F  (xl, Wl) は残りの部分で、通常 2 つまたは 3 つの畳み込み演算で構成されます (図 1 の右側)。 1 には畳み込み部分が含まれます。

上図の重みは畳み込みネットワークにおける畳み込み演算を指し、加算は単位加算演算を指します。

畳み込みネットワークでは、xl の特徴マップの数が xl+1 の特徴マップの数と異なる場合があり、この場合、次元を増減するには 1×1 畳み込みを使用する必要があります (下図)。このとき、残差ブロックは次のように表されます。

 ここで、h(xl)=Wl'x。このうち Wl' は 1×1 畳み込み演算ですが、実験結果から 1×1 畳み込みによるモデル性能の向上には限界があるため、次元数を増減する場合によく使用されます。

ドロップアウトの正則化:

正規化する理由:

深層学習の分野では、すべてのニューラル ネットワークが過学習の影響を受ける可能性があること、つまりモデルが過学習になりやすいことがよく知られています。過学習は、大量のデータを収集し、ドロップアウト正則化などの方法を使用することで効果的に回避できます。

正則化とは:

ドロップアウトとは、ニューラル ネットワークの各層の一部のニューロンをランダムに削除することであり、学習プロセス中に、削除されたニューロンは順方向伝播と逆方向伝播に参加しません。つまり、ニューラル ネットワークの重みの更新に寄与しません。これにより、パラメータ間の相互適応が改善され、ネットワークの汎化能力が向上します。

ドロップアウト正則化の機能は次のとおりです。

  • ドロップアウト正則化により、ネットワークの複雑さが軽減され、勾配がより簡単に浅い層に流れることができるため、勾配の消失または爆発の問題を効果的に軽減できます。
  • ドロップアウト正則化は、ネットワークの統合学習と同等であるため、ネットワークの表現能力を強化できます。つまり、ネットワークのサブセットが各トレーニングに使用され、すべてのサブセットの平均がテストに使用され、向上する可能性があります。ネットワークの堅牢性と安定性。
  • ドロップアウト正則化は、ネットワークに正則化項を追加することと同じであるため、最適化が容易になります。つまり、各重みにベルヌーイ分散確率変数が乗算されます。これにより、重みが大きすぎたり小さすぎたりすることがなくなり、過学習が回避されます。フィッティングまたはアンダーフィッティング。

バッチ正規化:

バッチ正規化が必要な理由:

深層学習では、トレーニング プロセス中にネットワーク層の数が増加し、重みが常に更新されるため、活性化層の出力 (入力) の分布は変化し続けます。常に維持されると、勾配の消失や勾配の爆発が発生し、問題が発生します。これはバッチ正規化によって回避できます。

バッチ正規化とは:

バッチ正規化はディープ ニューラル ネットワークで使用されるテクノロジであり、ネットワークのトレーニングを高速化し、モデルの汎化能力を向上させ、勾配の消失や爆発を防ぎ、初期化と正則化への依存を減らすことができます。バッチ正規化の原理は、各ニューロンの入力が標準正規分布に従うように各ミニバッチ内のデータを正規化し、学習可能なスケーリングおよび変換パラメーターを通じてデータの元の分布を復元することです。バッチ正規化の機能は次のとおりです。

  • バッチ正規化では、データ間の相関を減らし、内部共変量オフセットを減らすことができるため、各層の入力分布がより安定し、それによってネットワークの収束が高速化されます。
  • バッチ正規化は、各層の入力にノイズを追加し、データの多様性を高め、特定の正則化効果を発揮し、過剰適合を防止することに相当するため、ネットワークの表現能力を強化できます。
  • バッチ正規化により、各レイヤーの入力分布が標準正規分布に近づき、大きすぎる値または小さすぎる値によって引き起こされる急激な勾配の変化が回避されるため、勾配の消失または爆発の問題を軽減できます。
  • バッチ正規化では、ネットワークが重みとバイアスの初期値の影響を受けにくくなり、ネットワークがより大きな学習率を使用し、ドロップアウトを減らすことができるため、初期化と正則化への依存を減らすことができます。

参考記事:残差ネットワークの詳しい説明 – Zhihu

https://www.baidu.com/link?url=7YpsN6GhUbDwH2vaLjI6GVLC7zjN-OSt1kmbjdNtsozBOf6nOZeZe5T7m529lLFR8bTvwaE32Hi3gPU5cY8FP_&wd=&eqid=aa78e975000062e40000000664ed 64bc

おすすめ

転載: blog.csdn.net/weixin_45819759/article/details/132551183