ハンズオン高度なリカレントニューラルネットワークpytorch-学習

高度なリカレントニューラルネットワーク

1.GRU
2.LSTM
3.Deep RNN
4.Bidirection NN

1.GRU

RNN問題:崩壊または爆発しやすい勾配(BPTT)
⻔制御ループニューラルオープンネットワーク:ステップのキャプチャ時系列依存性がよりズーム時間から

1.1数式

\ [R_ {T} =σ(X_tW_ {XR} + H_ {T-1} W_ {時間} + B_R)\\ Z_ {T} =σ(X_tW_ {XZ} + H_ {T-1} W_ {ヘルツ} + b_z)\\ \ widetilde {H} _t = TANH(X_tW_ {XH} +(R_T⊙H_{T-1})W_ {HH} + B_H)\\ H_t =Z_t⊙H_{T-1} + (1-Z_t)⊙\ widetilde {H} _t \]

1.2構造

  • ⻔リセット(リセットゲート):時系列は⾥短期の依存関係をキャプチャすることができます。
  • アップデート⻔(更新ゲート):時系列依存⾥⻓期間をキャプチャするのに役立ちます。

画像名

1.3を実現します

2.LSTM

2.1数式

\ [\ {整列} \ boldsymbol {I} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XI} + \ boldsymbol {H} _ {T-1}を開始\ {分割}始めます\ boldsymbol {W} _ {HI} + \ boldsymbol {B} _i)、\\ \ boldsymbol {F} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XF} + \ boldsymbol { H} _ {T-1} \ boldsymbol {W} _ {HF} + \ boldsymbol {B} _f)、\\ \ boldsymbol {O} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XO} + \ boldsymbol {H} _ {T-1} \ boldsymbol {W} _ {HO} + \ boldsymbol {B} _o)、\端{整列} \端{スプリット} \]

\ [\チルダ{\ boldsymbol {C}} _​​ T = \テキスト{TANH(\ boldsymbol {X} _t \ boldsymbol {W} _ {XC} + \ boldsymbol {H} _ {T-1} \ boldsymbol {W } _ {HC} + \ boldsymbol {B} _c)、\\ \ boldsymbol {C} _t = \ boldsymbol {F} _t \ \アドバイザboldsymbol {C} _ {T-1} + \ boldsymbol {I} _t \価値\チルダ{\ boldsymbol {C}} \推奨_t _ T、\\ \ boldsymbol {H} _t = \ boldsymbol {O} \テキスト{TANH(\ boldsymbol {C} _t)。\]

2.2構造

  • 忘れドア(\(\ _tはboldsymbol {} F. \)である):制御メモリセルの時間ステップ
  • 入力ゲート(\(\ boldsymbol {} I \)である_t):現在の時間ステップの制御入力
  • 出力ゲート(\(\ _tあるboldsymbol {O} \) に制御メモリセルから隠さ
  • メモリセル(メモリセル候補- \ (\ {チルダは\ boldsymbolある} _ {C} T \) メモリセル- \ (\ _tは{C}が\)boldsymbol):⼀種が特定の隠れ状態の情報の流れ

画像名

2.3を実現します

3.Deep RNN

3.1数式

\[ \boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)})\\ \boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)})\\ \boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q \]

3.2结构

画像名

4.Bidirection RNN

4.1数学表达式

\ [\ {整列}開始\ overrightarrow {\ boldsymbol {H}} _ T&= \ PHI(\ boldsymbol {X} _t \ boldsymbol {W} _ {XH} ^ {(F)} + \ overrightarrow {\ boldsymbol { H}} _ {T-1} \ boldsymbol {W} _ {HH} ^ {(F)} + \ boldsymbol {B} _h ^ {(F)})\\ \ overleftarrow {\ boldsymbol {H}} _ T &= \ PHI(\ boldsymbol {X} _t \ boldsymbol {W} _ {XH} ^ {(B)} + \ overleftarrow {\ boldsymbol {H}} _ {T + 1} \ boldsymbol {W} _ {HH } ^ {(B)} + \ boldsymbol {B} _h ^ {(B)})\端{整列} \]
\ [\ boldsymbol {H} _t =(\ overrightarrow {\ boldsymbol {H}} _ {T }、\ overleftarrow {\ boldsymbol {H}} _ T)\]
\ [\ boldsymbol {O} _t = \ boldsymbol {H} _t \ boldsymbol {W} _ {HQ} + \ boldsymbol {B} _q \]

4.2構造

画像名

おすすめ

転載: www.cnblogs.com/54hys/p/12311202.html