シーケンスラベリングのため、暗黙的に定義されたニューラルネットワーク

論文リンク:P17-2027


本論文では、小説、暗黙的に定義されたニューラルネットワークを提示し、それを計算する方法を説明します。

1はじめに


RNN従来の双方向二つの方向を別々に隠れ層を算出することができる、新しいメカニズムを説明する2つの方向の情報が相互に直接結合計算されます。

2 INN


2.1伝統的なRNN

古典RNNは、入力シーケンス$ [{XIの_1}、{所与 XI _2}、ldots、{XIの_n}] $ 隠れ層及び初期状態$ {h_s} $、およびその後の反復ステータス隠れ層を生成します。
[{1}を{アレイを}開始 {H_1を} = F({XIの_1}、{h_s})\ {H_2} = F({XIの_2}、{H_1})\ cdots \ {h_n} = F({XI _n}、{{N H_ - 1}})端{アレイ}]、GRU LSTM 以下の計算は、線形画像になるように、各時刻の状態でのみ電流に依存し、相関演算の方法の他の変異体は、また類似していますそして、入力時間前の状態。

2.2改良された構造

この論文このようにして算出ステータス隠れ層:
[h_t} = {F(XIの_tは{}、{H_ {T - 1}}、{H_ {T} +} 1)]ように中間層の状態の全体の配列:式は、と呼ばれる、暗黙的である
、X- $ $データをY $ $タグ、パラメータ:次のように、このニューラルネットワークでは、変数が定義されている[H = [H_1 {}、{} H_2、ldots、H_n {}]]以下のように関数が定義されている$シータ$、
入力層の変換:
[XI G =(シータ、X-)]暗黙隠れ層:
[H = F(シータ、XI、H)]損失関数:
[ELL L =(シータをH、Y)]を$ {h_s} $および$ {h_e} $は境界状態は、$ N $で定義される非線形方程式のシリーズを構築する入力シーケンス、$ F $関数の長さ:
[配列が{{L}を始めます} {H_1}はF({= }、{H_ {iは、+ 1}}、{XIの_i - 1 \ cdots \ {H_I} = F({H_ {iはh_s}、{H_2}、{XI _1を})} })\ cdots \ {h_nは} }、{h_e}、{XIの_n})端{アレイ}] INNの- 1 F({H_ {N =} 以下に示すような構造を

2.3計算フロントの伝播

式$ H = F(H)$を計算するために 、 準ニュートン法を用いて。
注文$ G = H - F(H )$、 $計算式をに変換され、大きいカラム  のために、暗黙的に定義され、シーケンス標識ニューラルネットワーク G = 0 $。
[開始{アレイ} {1} {H_ {N + 1} = {H_n} - {({ナブラ_H} G)^ { - 1} G \ {H_ {N + 1} = {H_n} - {(I - {ナブラ_H} F)^ { - 1}}({H_n} - F({H_n}))エンド{アレイ}] - $({ナブラ_H} I留意 $ F)が疎な行列であります特に安定した二重共役勾配法におけるクリロフ部分空間法の使用は、計算するように(BICG-STAB)アルゴリズム。

2.4勾配

:モデル、確率的勾配降下法、損失関数の定義訓練する
[{ナブラ_theta} L = {ナブラ_theta} ELL + {ナブラ_H} ELL {ナブラ_theta} H]項
[{ナブラ_theta} H = {ナブラ_theta} Fを+ {ナブラ_H} F {ナブラ _theta} H + {ナブラ_xi} F {ナブラ_theta} XI] そう
[{ナブラ_theta} H = { (I - {ナブラ_H} F)^ { - 1}}({ナブラ_theta} F + {ナブラ_xi} F {ナブラ_theta} XIに)] 全体勾配となるように
[{ナブラ_theta} L = {ナブラ_theta}のELL + {ナブラ_H}(I {エル- {ナブラ_H} {^ F) - 1}}({ナブラ_theta } F + {ナブラ_xi} F {ナブラ_theta} XI)]

2.5変換関数

GRU、次の伝達関数のことを思い出してください:
[開始{アレイ} {L} {h_t} =(1 - {Z_t}。){{ハットH}は_tである} + {Z_t} {{チルダH}は_tがある} \ {{チルダH} _t} = TANH( W {X_T} + U({R_T} {{帽子H} _t})+チルダB)\ {z_t} =シグマ({W_z} {X_T} + {U_z} {{帽子H} _t} + {b_z} )\ {R_T} =シグマ({W_R} {X_T} + {U_r} {{帽子H} _t} + {B_R})端{アレイ}] 、請求$ {{でGRU帽子H} _t} = {H_ {T - 1}} $、 イン代替実行する:
[開始{アレイ} {L}、{{ハットH} _tである} = S {H_ {T - 1}} +( 1 - S){H_ {T + 1}} \ S = FRAC {{{S_P}}}、{{{S_P} + {S_N}}} \ {S_P} =シグマ({W_p} {X_T} + {U_p } {H_ {T - 1} } + {b_p})\ {S_N} =シグマ({W_N} {X_T} + {U_n} {H_ {T + 1}} + {B_N})端{アレイ}]

実験3


シーケンスラベル

以下に示すように、このモデルの効果は、標準的なシーケンスタガーよりも良いです!

4おわり


効果は、このような双方向のGRUとして、双方向LSTMよりも優れている、系列ラベリングタスクに適用され、ニューラルネットワークの暗黙的な定義を紹介。
いくつかの作業が、上記INN双方向LSTMを操作することができる加速度が$を算出するなど、改善することができる{(I - {ナブラ_H } F)^ { - 1}} $ など。

おすすめ

転載: www.cnblogs.com/dajunjun/p/11694101.html