どのようなドロップアウトはい?なぜドロップアウトは、オーバーフィッティング防ぐことができますか?

ドロップアウトとは何ですか?

ドロップアウト中国の意味:終了。それはあまりに防止の戦略に合わせて、ニューラルネットワークの学習プロセスで作られていることをいいます。
トレーニングプロセスを目的とした特定の確率戦略によると:(出力層を除く)ランダム削除神経ネットワーク(一般に、中間層は、入力層をサンプリングし、0.5の確率標本では0.8の確率です)。

:標準のニューラルネットワークは以下の
標準的なニューラルネットワーク
ニューラルネットワークドロップアウトを:
ここに画像を挿入説明
トレーニングと戦略でドロップアウト(テスト)異なるを使用した場合、ランダムにモデルの使用で訓練中にいくつかのニューロンを削除するには、すべてのニューロンに追加されます。

なぜ、ドロップアウトを使うのか?

ニューラルネットワークの深さは、吊りチェーンの過程で二つの主要な欠点が発生しますので。

  1. オーバーフィッティングに簡単に
  2. 時間のかかります

上記の二つの問題を解決するために、実際のドロップアウト出現、。
これらの2つの欠点を解決することができますなぜあなたは言うことができますか?
以下を参照してください!

なぜドロップアウトは、オーバーフィッティング防ぐことができますか?

ドロップアウトは深いバギングニューラルネットワークの多数を統合する実用的な方法であるとみなすことができます。
何で袋詰めに
袋詰めに技術の汎化誤差(ブートストラップ集計に)いくつかのモデルを組み合わせることにより低減されます。
主なアイデアは、次のとおりです。トレーニングのいくつかの異なるモデルがあり、その後、投票試験サンプル出力のすべてのモデルをしましょう。ポリシーの技術を使用して、この戦略は、平均モデルと呼ばれている(弱分類強分類器を複数統合と同様)が統合されたプロセスと呼ばれています。
平均モデル働くのはなぜ?
異なるモデルは、一般的に同じエラー試験機を生産していない、投票する複数のモデルは、より良い結果を達成するために、異なるモデル間で異なるエラーが、互いに打ち消し合うことができます。
ドロップアウトや袋詰めの違いがある:
すべてのモデルが独立している袋詰め。(モデル間のパラメータは、相互の影響はありません)
ドロップアウトすべてのモデルの共有パラメータを。(それぞれの子は父親のニューラルネットワークモデル異なるサブセットを継承)
の共有パラメータは、モデルの指数関数的な数は限られたメモリ空間で可能となっている指示するように
引き離す~~~~ドロップアウトなぜそれが防ぐために(オーバーフィットを防止することができますオーバーフィットドロップアウトの使用後の現象)

1.平均化効果

このアイデアは、袋詰めと一致しています。
私たちは、**「平均化」し、我々が使用できる5つの異なる結果を得る通常、5つの異なるニューラルネットワークを訓練するために同じデータセットを使用するか、最終的な結果を決定するために**戦略「最も勝利」 。異なるオーバーフィッティングケースを生成する異なるサブ構造のため、平均化はあなたの「反対」であると互いに相殺することができます。ネットワーク全体は、オーバーフィッティングの程度を低減するようにします。

2.ニューロンの共同適応性との間の関係の複雑さを軽減

このような2個のニューロンのようなドロップアウト技術が発生一つのサブネットワーク構造に必ずしもありません。インタラクションの更新に基づいて、この量は、他の機能の場合に有効であることが特定の機能を防止する、固定された関係隠れノードに依存しません。より堅牢な機能を学ぶためにネットワークを強制的に(よりはスルー適応を持っています)。

男女の役割の生物進化に類似3.Dropout

多くの場合、環境に適応する傾向が種を存続させるために、変異種の環境は、それが困難な、すなわち、環境の変化に直面する可能性の種を避けるために、新しい環境に適応する上でフィット防ぐ生み出しすることができますタイムリー作る性別バリアントの出現を反映するようになります絶滅。

オーバーフィッティングの問題が解決され、問題の一見時間のかかるトレーニングはまだ解決していない、実際には、ああ、最初のポイントは、問題を説明しました。

付加ドロップアウトが重み定数(パラメータ共有する)指数関数的に増幅のモデル番号場合に見ることができる後のドロップアウトの平均化は、N個のノードを有する操作部分構造親ニューラルネットワークの番号の後に生成されます。
あなたは2つの訓練したい場合は、他の方法でラウンドは、Nドロップアウトに参加するモデルパラメータを、そうでない場合、あなたは2充電する必要があるN訓練する時間を。添加した後、ドロップアウトNパラメータは、わずか2つの取得するためにトレーニング時間を必要とするNモデルパラメータの効果を。それは時間を節約していない、まだ> _>

参照

[1]:「ディープラーニング」Page158、Page165
[2]:https://zhuanlan.zhihu.com/p/38200980
[3]:https://blog.csdn.net/stdcoutzyx/article/details/49022443

おすすめ

転載: blog.csdn.net/qq_19672707/article/details/88740832