ドロップアウトのいくつかの理解

オリジナルリンク: https://blog.csdn.net/youhuakongzhi/article/details/94737502
免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/youhuakongzhi/article/details/94737502

20.なぜドロップアウトニューロンをトレーニング中に二度(に接続される 平均) 入力ニューロンの。 この事実を補うために、我々はを乗じた各ニューロンのトレーニングの後に入力接続重みを必要とする 1-P ??

小さいながらも重要な技術的な詳細があります。 仮定Pが50%= 、この場合には、試験中に、入力信号が二回新しいトレーニングの数であり、ドロップアウトドロップアウト(P = 0.5)の入力信号は、テストが行われていないため、トレーニング時間、入力信号が半分だけテストであるときに、通常は二回(に接続されるニューロンを訓練中、訓練 平均) 入力ニューロンの。 入力信号の膨大な量を確保するために、ネットワークの不安定性を変化させません。訓練の後、我々は、各ニューロンの入力接続重みはを掛けます0.5 これは、信号入力とトレーニングテストが同じであることを保証します。より一般的に、我々は、(研修後確率を乗じた体重を維持するために、各入力に接続する必要がある1-P-を)。

または:ときトレーニング、元のようにアクティブなニューロンの平均数のp 回。試験では、全てのニューロンは、すべてのトレーニングおよびテストネットワーク矛盾の出力を引き起こす、活性化することができます。あなたは各ニューロンの出力をテストする必要がある場合、この問題を軽減するために、乗算されP- また異なる神経ネットワークが平均を行うことに対応

しかし、大規模なネットワークデータセットの欠如は、ときに使用することができますドロップアウトがオーバーフィット防止の小規模ネットワーク向けに、またはデータ収集ネットワークの不足が推奨されていないと言います。

 

21. ドロップアウト、それは訓練が遅くなりますか? それは予測が遅くなります( つまり、新しいインスタンスを予測)

はい、ドロップアウトは約二倍、一般的には、スピードトレーニングを遅くありません。それが唯一のトレーニング中に開いているのでしかし、それは、何の効果も予測していません。

 

22 ドロップアウトは、訓練されたネットワークの出力を用いて予測する方法ですか?それは訓練されたネットワークを組み合わせた方法ですか?そして、同じように袋詰め?

      そして、ドロップアウトが閉じられた予測を行う、一緒にすると、すべてのトレーニングニューラルネットワークの異なる構造、最終的な予測の予測がなされている表します。全体のプロセスは、異なるニューラルネットワークの数予測値が与えられ、最終的な投票決定。

層が広いときに出力が小さくなるという問題が広く、ネットワーク層のためにそれほど重要ではないので、確率は、入力からの全ての可能なパスを廃棄します

ここでは、1種類を再訪し、袋詰め、まだ似ているが異なる正則方法:ドロップアウトを

    呼ばれるドロップアウトは、フロント伝播アルゴリズムを参照して訓練する伝播アルゴリズムを使用してバックDNNの場合ランダムに完全な接続からの反復データの数、時間モデルをDNN ネットワークにおける隠れ層のニューロンの一部を除去します。

    たとえば、私たちは持っていたDNNの次のような構造に対応するモデルは次のとおりです。

https://images2015.cnblogs.com/blog/1042406/201702/1042406-20170227134701063-630638511.png

    データのバッチを訓練するためにトレーニングセットの時点で、我々はランダムに隠れ層ニューロンの部分を削除し、トレーニングデータの当社グループを合わせて、隠れ層ニューロンを削除するためにネットワークを使用しています。以下は、隠れ層のニューロンの半分を削除するには:

https://images2015.cnblogs.com/blog/1042406/201702/1042406-20170227134816751-852364682.png

    そして、すべての反復更新を実行するために、隠れ層ニューロンネットワークを削除するには、これを使用し、W Bをこれはと呼ばれるドロップアウト

 

    もちろん、ドロップアウトは、これらのニューロンが永遠に失われていることを意味するものではありません。データのグループ次の反復の前に、我々はだろうDNNのモデルは、初期完全接続モデルに復元し、その後、隠れ層のニューロンの部分を除去するために、ランダムな方法を使用し、その後反復に更新WはBもちろん、ランダムなプロセス欠陥の一部除去するための中間層DNNのネットワークと最後の不完全DNNのネットワークは同じではありません。

  要約ドロップアウト方法:反復勾配降下の各ラウンドは、それがトレーニングデータをいくつかのバッチとバッチの反復に分割されている必要があり、データの各バッチが反復され、元の必要DNNをランダムにして、部分的に隠れ層のニューロンを除去しました不完全なDNNのモデルを反復更新するWBをデータの各バッチが完了した反復更新した後、不完全に DNNのモデル元に復元するDNNのモデル。

    上記の説明から分かるようにドロップアウトバギング正則考え非常に異なっていますドロップアウトモデルW Bが共有されている(元がWであることを理解していない、ブログをたくさん言うの共有、bがWbの更新だけで一つのグループ、一度異なるネットワークトレーニングとそれぞれ、です)すべての不完全なDNNの同じグループに更新反復、WB、および袋詰め正則たびDNNのモデルがあり、独自のユニークなセットWはB のパラメータは互いに独立しています。もちろん、彼らはモデルのバッチを訓練するために、結果のデータセットに基づいて元のデータセットを使用するたびに、これは同様です。

    ベースのドロップアウトに基づく正則比袋詰めので、正則化の単純な、それは、もちろん、空きランチはありません、明らかであるドロップアウトは、オリジナルのバッチでデータなので、最高の元のデータセットが大きい、の繰り返しはそれ以外のモデルはunderfittingかもしれないだろう。

24.ドロップアウトは、より効果的にある程度正則化結果に達し、オーバーフィッティングの発生を低減することができます。その原因の観点では、それは、主に2つの領域に分けることができます。

    投票役割を達成します完全に接続されたニューラルネットワークのために、我々は、5つの異なるニューラルネットワークは、いくつかの異なる結果を得ることができ、我々はマルチ投票機構により勝者を決定するために投票することができ訓練するために同じデータを使用するため、比較的改善ネットワークの精度と堅牢性。異なるネットワークは過剰適合-の異なる度合いを生成することができるが、それは、等価を同時に最適化されたパブリック関数の喪失するが、同様に、単一のニューラルネットワークのために、我々は、バッチであろう場合に、取ります平均、より効果的に過学習の発生を防止することができます。
    ニューロン間の共同適応の複雑さを軽減隠れ層のニューロンがランダムに削除される場合、そのように効果的に異なる特徴の相乗効果を低減するいくつかの間引きと完全に接続されたネットワーク、。言い換えれば、一部の機能は、関係を固定隠れノードの相互作用に依存することができる、とドロップアウトによって、それがランダムに良い結果を達成するために一緒に働くのうち、選択された神経細胞、神経細胞および他のを強制します。ニューロンノードの適応性との間の接合を弱める排除、及び汎化能力を高めます。

右のネットワークの更新の入力値に対する各時間サンプルので、ノードはランダムある確率が隠されて、各2つの隠れノードが同時に、このような重みを更新て発生ごとにもはや依存がある保証はありませんいくつかの機能を防止する固定された関係の暗黙の相互作用ノードは、唯一の他の特定の機能の場合に有効であろう。
--------------------- 

袋詰め与ドロップアウト:

  • 袋詰めでは、すべての分類子は独立しており、ドロップアウトでは、すべてのモデルがされているパラメータ共有のを。
  • 袋詰めでは、すべての分類は、特定のデータセットに収束するように訓練されていますが、ドロップアウトには明確なモデルのトレーニングコースはありません。ネットワークは、トレーニング時間のステップである(サンプル入力、ランダムなサブネットワークをトレーニング)で
  • (同一点)は、トレーニングセットのために、各サブネットワーク用のトレーニングデータは、元のデータを置換することによって得られたサンプルのサブセットです。(これは袋詰めのために、トレーニングセットは、全サンプルからのものであり、ランダムサンプリングに戻ろう、とドロップアウトのために、ネットワーク全体のランダムサンプリングの重みと等価である、ということを意味サンプリング繰り返しますが、ないあり重みは、二つの方法は、完全なデータからサンプリングし、それぞれの新しいネットワークまたはフォレストを訓練されています)

 

主な基準: https://www.cnblogs.com/pinard/p/6472666.html(推奨) 

https://blog.csdn.net/m0_37477175/article/details/77145459

https://blog.csdn.net/fu6543210/article/details/84450890 

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/youhuakongzhi/article/details/94737502

20.なぜドロップアウトニューロンをトレーニング中に二度(に接続される 平均) 入力ニューロンの。 この事実を補うために、我々はを乗じた各ニューロンのトレーニングの後に入力接続重みを必要とする 1-P ??

おすすめ

転載: blog.csdn.net/sunhua93/article/details/102765026