高度なリカレントニューラルネットワーク
1.GRU
2.LSTM
3.Deep RNN
4.Bidirection NN
1.GRU
RNN問題:崩壊または爆発しやすい勾配(BPTT)
⻔制御ループニューラルオープンネットワーク:ステップのキャプチャ時系列依存性がよりズーム時間から
1.1数式
\ [R_ {T} =σ(X_tW_ {XR} + H_ {T-1} W_ {時間} + B_R)\\ Z_ {T} =σ(X_tW_ {XZ} + H_ {T-1} W_ {ヘルツ} + b_z)\\ \ widetilde {H} _t = TANH(X_tW_ {XH} +(R_T⊙H_{T-1})W_ {HH} + B_H)\\ H_t =Z_t⊙H_{T-1} + (1-Z_t)⊙\ widetilde {H} _t \]
1.2構造
- ⻔リセット(リセットゲート):時系列は⾥短期の依存関係をキャプチャすることができます。
- アップデート⻔(更新ゲート):時系列依存⾥⻓期間をキャプチャするのに役立ちます。
1.3を実現します
- 公式達成:https://pytorch.org/docs/1.3.0/nn.html#gru
- 手書きの実現します:
2.LSTM
2.1数式
\ [\ {整列} \ boldsymbol {I} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XI} + \ boldsymbol {H} _ {T-1}を開始\ {分割}始めます\ boldsymbol {W} _ {HI} + \ boldsymbol {B} _i)、\\ \ boldsymbol {F} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XF} + \ boldsymbol { H} _ {T-1} \ boldsymbol {W} _ {HF} + \ boldsymbol {B} _f)、\\ \ boldsymbol {O} _t&= \シグマ(\ boldsymbol {X} _t \ boldsymbol {W} _ {XO} + \ boldsymbol {H} _ {T-1} \ boldsymbol {W} _ {HO} + \ boldsymbol {B} _o)、\端{整列} \端{スプリット} \]
\ [\チルダ{\ boldsymbol {C}} _ T = \テキスト{TANH(\ boldsymbol {X} _t \ boldsymbol {W} _ {XC} + \ boldsymbol {H} _ {T-1} \ boldsymbol {W } _ {HC} + \ boldsymbol {B} _c)、\\ \ boldsymbol {C} _t = \ boldsymbol {F} _t \ \アドバイザboldsymbol {C} _ {T-1} + \ boldsymbol {I} _t \価値\チルダ{\ boldsymbol {C}} \推奨_t _ T、\\ \ boldsymbol {H} _t = \ boldsymbol {O} \テキスト{TANH(\ boldsymbol {C} _t)。\]
2.2構造
- 忘れドア(\(\ _tはboldsymbol {} F. \)である):制御メモリセルの時間ステップ
- 入力ゲート(\(\ boldsymbol {} I \)である_t):現在の時間ステップの制御入力
- 出力ゲート(\(\ _tあるboldsymbol {O} \) )に制御メモリセルから隠さ
- メモリセル(メモリセル候補- \ (\ {チルダは\ boldsymbolある} _ {C} T \) 、メモリセル- \ (\ _tは{C}が\)boldsymbol):⼀種が特定の隠れ状態の情報の流れ
2.3を実現します
- 公式達成:https://pytorch.org/docs/1.3.0/nn.html#lstm
- 手書きの実現します:
3.Deep RNN
3.1数式
\[ \boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)})\\ \boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)})\\ \boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q \]
3.2结构
4.Bidirection RNN
4.1数学表达式
\ [\ {整列}開始\ overrightarrow {\ boldsymbol {H}} _ T&= \ PHI(\ boldsymbol {X} _t \ boldsymbol {W} _ {XH} ^ {(F)} + \ overrightarrow {\ boldsymbol { H}} _ {T-1} \ boldsymbol {W} _ {HH} ^ {(F)} + \ boldsymbol {B} _h ^ {(F)})\\ \ overleftarrow {\ boldsymbol {H}} _ T &= \ PHI(\ boldsymbol {X} _t \ boldsymbol {W} _ {XH} ^ {(B)} + \ overleftarrow {\ boldsymbol {H}} _ {T + 1} \ boldsymbol {W} _ {HH } ^ {(B)} + \ boldsymbol {B} _h ^ {(B)})\端{整列} \]
\ [\ boldsymbol {H} _t =(\ overrightarrow {\ boldsymbol {H}} _ {T }、\ overleftarrow {\ boldsymbol {H}} _ T)\]
\ [\ boldsymbol {O} _t = \ boldsymbol {H} _t \ boldsymbol {W} _ {HQ} + \ boldsymbol {B} _q \]