まず、減衰や爆発
ニューラルオープンネットワークの層の多数は、モデルの数値的安定性が容易に劣化した場合。例えば、仮定、及び重量が0.2である5。 (約\ 0.2 ^ {30} 1 \ 10倍^ { - } 21 \である)\(この時点では、少数を取得し、その結果、非常に遅いニューロンの学習につながる可能性が減衰。)、\(^ {30}。5 \約9 \ 20回10 ^ {} \)であり、従って、爆発勾配を引き起こす(この時点では非常に大きな数を与えます。)
第二に、ランダムな初期化パラメータモデル
複数のニューロンを含むネットワーク場合、これらのパラメータは、反復勾配ベースの最適化アルゴリズム、十分後に反復後等しいままです。そして、ニューロンの数は、残りのニューロンにおける役割、ランダムな初期化のために、したがって必要性を再生するためには、ニューロンに相当好きです。
(A)PyTorchデフォルトランダム初期化
あなたは使用することができますtorch.nn.init.normal_()
へのモデルnet
右重みパラメータは、通常、ランダムな初期化メソッドを配布しました。これはnn.model
、各レイヤの初期化のための政策の配慮が取られ、参照ソースコード。
(ii)のランダム初期化ザビエル
そこ⼀⽐ランダム初期化と呼ばれ、頻繁に使用されるランダムな初期救済より多くの種類のザビエル[1]。START入力層の数は、完全に接続されていることを前提とし\(A \) 、出力の数\(B \) 、ザビエルランダム初期化パラメータの重みが一様ランダムサンプリングに分布している᯿各素子の層を引き起こすであろう:
\ [U \左( - \ SQRT
{\ FRAC {6} {+のB}}、\ SQRT {\ FRAC {6} {+のB}} \右)\] その設計を考慮した、モデルパラメータの初期化各出力層との間の差は、START入力の数によって影響されるべきではなく、各勾配⽅⽅後
差を出力層の数によって影響されません。
III概要
- 典型的な問題の深さモデルは、減衰及び爆発の数値的安定性に関係しています。ニューラルオープンネットワークの層の多数は、モデルの数値的安定性が容易に劣化した場合。
- 我々は通常、このような重みパラメータとしてニューラルネットワークを開き、のランダムな初期化パラメータモデルを必要とします。