グラデーショングラデーションが消え、爆発:
勾配勾配消失及び爆発が同様の観点から説明することができ、基本的な理由は、ニューラルネットワークは回線更新減量に従って機能ニューロン間の導出方法チェーンガイドの右側に基づいていることであり、活性化関数を介して入力ニューロンは、活性化我々はシグモイド活性化関数として選択した場合、一般的には、:
活性化関数はシグモイド関数のために使用した場合、一般的に、その誘導体であります:
我々は標準初期Wを使用する場合、我々が見ることができる。このようにして、すべてのレベルが0と1の間の小数を乗じ、及び活性化関数fの誘導体もポストによって0と1の間の数、結果の意志であり、さこれは、勾配の消失が生じ、小さくなりすぎます。我々は、活性化関数として大きなとして1よりも大きいWの誘導体を乗じ大きな数は、wは初期化する場合も乗車後、勾配爆発の有意な結果導出につながる可能性があります。
どのように解決するには?
-
- Relu、TANHだけでなく、TANH誘導体が1未満であるように、勾配が消滅/爆発が発生する可能性があり、このような置換活性化機能、
- Relu、TANHだけでなく、TANH誘導体が1未満であるように、勾配が消滅/爆発が発生する可能性があり、このような置換活性化機能、
図から分かるように、従ってReLU導関数、定数部分の値、および勾配または勾配爆発の消失を引き起こしません。
またReLU機能は、いくつかの利点があります。
便利な計算、計算速度
勾配を消える問題を解決するために、高速コンバージェンス
-
- 位相パラメータは、Wの範囲内で取られる、wganはそうです
-
- 残留接続
-
- BN
-
- 正則、ペナルティパラメータプロジェクト
https://blog.csdn.net/weixin_39853245/article/details/90085307