数値安定性とモデルの初期化--2020.3.2

まず、減衰や爆発

     ニューラルオープンネットワークの層の多数は、モデルの数値的安定性が容易に劣化した場合。例えば、仮定、及び重量が0.2である5。 約\ 0.2 ^ {30} 1 \ 10倍^ { - } 21 \である)\(この時点では、少数を取得し、その結果、非常に遅いニューロンの学習につながる可能性が減衰。)、\(^ {30}。5 \約9 \ 20回10 ^ {} \)であり、従って、爆発勾配を引き起こす(この時点では非常に大きな数を与えます。)

第二に、ランダムな初期化パラメータモデル

     複数のニューロンを含むネットワーク場合、これらのパラメータは、反復勾配ベースの最適化アルゴリズム、十分後に反復後等しいままです。そして、ニューロンの数は、残りのニューロンにおける役割、ランダムな初期化のために、したがって必要性を再生するためには、ニューロンに相当好きです。

(A)PyTorchデフォルトランダム初期化

     あなたは使用することができますtorch.nn.init.normal_()へのモデルnet右重みパラメータは、通常、ランダムな初期化メソッドを配布しました。これはnn.model、各レイヤの初期化のための政策の配慮が取られ、参照ソースコード

(ii)のランダム初期化ザビエル

     そこ⼀⽐ランダム初期化と呼ばれ、頻繁に使用されるランダムな初期救済より多くの種類のザビエル[1]。START入力層の数は、完全に接続されていることを前提とし\(A \) 出力の数\(B \) ザビエルランダム初期化パラメータの重みが一様ランダムサンプリングに分布している᯿各素子の層を引き起こすであろう:
\ [U \左( - \ SQRT
{\ FRAC {6} {+のB}}、\ SQRT {\ FRAC {6} {+のB}} \右)\] その設計を考慮した、モデルパラメータの初期化各出力層との間の差は、START入力の数によって影響されるべきではなく、各勾配⽅⽅後
差を出力層の数によって影響されません。

III概要

  • 典型的な問題の深さモデルは、減衰及び爆発の数値的安定性に関係しています。ニューラルオープンネットワークの層の多数は、モデルの数値的安定性が容易に劣化した場合。
  • 我々は通常、このような重みパラメータとしてニューラルネットワークを開き、のランダムな初期化パラメータモデルを必要とします。

おすすめ

転載: www.cnblogs.com/somedayLi/p/12398657.html