注文したニューロン:リカレントニューラルネットワークにツリー構造を統合

これは、1つまたはベスト紙のICLR2019 ICLR2019に掲載された記事で、そして。このツリー構造は情報を学ぶことができ、紙のプレゼントON-LSTMモデルを、この記事では、オープンソースコードはで利用できるようになりますGitHubのが見つかりました。

、より小さな単位(例えば、句)言語大きくなるようにユニットを積層天然階層(例えば句)です。その内部マストの端の大きい成分の終わりに、全ての小部品。しかし、これは明示的階層LSTM標準モデルをモデル化することはできません。そこで、本論文では、提案したモデルを注文したニューロンにLSTM(ON-LSTM)と呼ばれるこの種の誘導バイアス(すなわち学習レベル情報)に参加するニューロンによって行わ。

入門

自然言語は、通常、例えば、話し、1つの言語単位の両方シーケンシャル式を書くの形態のシーケンスとして表現されます。しかし、言語の構造体の電位は厳密にシーケンシャルではなく、(例えば構文木など)ツリー状の構造は、このアプローチはまた、人間の認知と一致しています。実用的な観点からは、ツリー構造は、いくつかの理由かもしれニューラルネットワークモデル言語に統合されます。

  • 意味表現の異なるレベルを得るために、抽象化のレベルを高めるために
  • 長期依存性の問題の組成と処理の言語をモデル化するために、
  • トレーニングデータの量を低減しつつ、オフセット誘導効果によって生成さを向上させるために

直接的なアプローチは、使用文法解析文解析モデル構文木であり、これらの方法は同様に多くの問題監視されている:1)、注釈データの欠如; 2)いくつかの地域では、文法規則は、ネットワーク用語として(それほど厳密ではないが)。 3)言語は常に変化して、文法のルールが失敗することがあります。一方、直接教師なし学習文法構造(文法誘導は)問題を解決するための良い方法ではありません、そして多くの場合、非常に複雑。

リカレントニューラルネットワークは、それがデータ構造がシーケンスであると仮定され、モデリング言語では非常に効果的であることが判明しました。しかし、この仮定は、言語が非シーケンス構造であるとき、タスクの長期依存性の問題であるか、またはキャプチャで問題を発生させることができます。同時に、構文木処理機構をコーディング暗黙LSTMによって実現されてもよいです。

本論文で、著者らは(ニューロン順序)次ニューロンを提案し、各ニューロン内の情報は、異なるライフサイクルを有する:長期情報記憶における高次ニューロンを、工程数のより低レベルの神経を維持することができドルの短期情報記憶、それはすぐに忘れられていてもよいです。剛性上位下位ニューロンの分割を回避するために、紙は、この機能を有効にするcumax()を提案しました。最後に、言語モデリング、教師なし選挙の解析上のモデルは、キャプチャの間の長期依存性、文法的分析に優れて以前のモデルよりも、文法的な評価および論理的な推論4つの実験のタスクを対象とし、長い文を生成し、より良い標準LSTMを超えています。

関連研究

作品の多くは、自然言語処理タスクのツリー構造に適用される、ともLSTMにおける構造情報の導入は、タスクは非常に有用持っていることを証明する既にあります。しかし、効率的な推論は構造も問題となっています。仕事に直接文法誘導(文法誘導)の一部が、これらの方法は、使用するにはあまりにも複雑です。いくつかは、情報のレベルをキャプチャするために異なる時間スケールのサイクル・メカニズムを使用して、サイクルネットワークを改善するために、仕事に選択します。しかし、これらのジョブは、通常の深さのレベルを事前に定義されました。

注文したニューロン

文所与\(S =(X_1、\ DOTS、X_T)\) 図ツリーに()は、その組成が対応するが、ターゲット・モデルが観察された配列データツリー構造情報に基づいているが観察不能な推測しました。各時間ステップにおける隠れた状態で、現在の入力(リーフノード)に関する情報を含むことが必要であり、図(c)に表示するだけでなく、情報のより高いレベルを含有します。しかし、隠された状態\(h_t \)の寸法は、情報のすべてのレベルは、それらがルートからリーフに動的に必要と異なるスパンを有していてもよく、異なる時間ステップと文で、(3 c)に固定されています。ニューロンは、隠れ状態の各ノードにマッピングされます。例えば、単に()(C)のレベルに対応するだけでなく、階層ツリー層4、及び隠された状態要素のみ3におけるニューロンの数を有していてもよいです。

したがって、次ニューロンの研究では、著者らはさらに、時間ステップ、低次ニューロンは(Cに対応する全体のプロセスを続くことができる、(上位層Cに対応する)高次ニューロンは長期依存またはグローバルな情報が含まれていることを願っ短い時間ステップ続いた短期メモリまたはローカル情報を符号化下層)。高速高次ニューロンよりも更新頻度でその下位ニューロン。

ON-LSTM

标准LSTM可以表示为:
\ [F_T = \シグマ(W_fx_t + U_f xh_ {T-1} + b_f)\\ I_T = \シグマ(W_ix_t + U_i xh_ {T-1} + b_i)\\ o_t = \シグマ(W_ox_t + U_o xh_ {T-1} + b_o)\\ \ハット{C} _t = \テキスト{TANH}(W_c X_T + U_c H_ {T-1} + b_c)\\ h_t = o_t \ CIRC \テキスト{} TANH(C_T)\\ C_T = F_T \ CIRC C_ {T-1} + I_T \ CIRC \帽子{C_T} \]

標準とLSTM間ON-LSTM差があること\(C_T \)上記の最後の式で更新。物忘れドア\(F_T \)とドアを入力\(I_T \)メモリユニットを制御する\(C_T \)の更新は、これらのドアは独立している各ニューロンのために、紙は、実際に忘れてドアを改善しますそして、ドアを入力してください。

活性化関数cumax()

高次と低次ニューロンニューロン、及びさまざまな方法、両者の境界を見つけるための最初の必要性に対応するアップデートを区別するために。論文の練習は、nホットベクトル生成することである\(G =(0、\ドット、0,1、\ DOTS、1)\) このベクターは、全体にわたり0、1の全期間にわたって、2つのセクションに分割され、モデルは、2つに異なる更新ルールで実現することができます。

上記ベクターを得るために、ワンホットベクトルに対応CUMSUMエフェクトの総和を表し、この紙紹介CUMSUM機能は、二つの部分の1と0へのベクターは、例えば、
\ [\テキスト{CUMSUM }((0,0,1,0,0))=(0,0,1,1,1)\]
上記生成こうして生成n型ホットベクターはすなわち、整数除算を見つけ、ワンホットベクトルに変換されます(第一の位置1)。しかし、この時は、分割点が離散的な値であり、勾配が仕事をしない計算、著者は、所望の軟化に有効にする方法を使用していました。具体的には、位置場合\(D \)発生の確率は以下の式で表すことができる:
\ [P(D)= \ {テキスト}のSoftMax(\ DOTS)\]
ので(G \)は\ CUMSUMによって生成されますしたがって\(G \)\(K \)番目の位置確率が事前なければならない\(K \)位置確率累積和、すなわち
\ [P(g_k = 1) = P(D \当量K)= \ sum_ {I \
当量のK} P(D = I)\] ベクターが提案(の使用することができ、得られたこのよう起動機能cumax)を生成し、それは:
\ [\ハット{G} = \テキスト{ cumax}(\ドット)= \テキスト{CUMSUM}(\テキスト{ソフトマックス}(\ドット))= \テキスト{CUMSUM}((P(1)、P(2)、\ドット、P(k)は、\ ドット))\]
と確率ソフトマックスは、ネットワークを学ぶの予測因子であり、カットオフポイントの質問は、確率予測問題になるを見つけるために、紙を置きます。

ストラクチャードドア機構

上記cumax()活性化関数に基づいて、紙の提示は、その主忘却ゲート\(\チルダ{F} _t \) とマスタ入力ゲート\(\チルダは、{I} _tが\である):\
[\チルダは、{F} _tありさ= \テキスト{cumax}(W _ {\チルダ{F}} X_T + U _ {\チルダ{F}} H_ {T-1} + B _ {\チルダ{F}})\\ \チルダ{I} _t = 1 - \テキスト{cumax}(
W _ {\チルダ{I}} X_T + U _ {\チルダ{I}} H_ {T-1} + B _ {\チルダ{I}})\] 上記の式を使用して、メインゲートと単調に発生主ベクトルの入力ゲートを忘れるが、0から1に増分され、メインドアを忘れ、主入力ゲートが1から0にデクリメントされます。これら二つのゲートには、次の更新ルールのメモリユニットを使用した後:
\ [W_T = \ある_t {F}チルダは、{I} \\ \ハット= F_T \ CIRC W_T +(\ある_t {F}は{チルダチルダ_t CIRCされているIS \ \れますF} _t - w_t)= \チルダ{F} _t \ CIRC(F_T \ CIRC \チルダ{I} _t + 1 - \チルダ{I} _t)\\ \ハット{I} _t = I_T \ CIRC w_t +( \チルダ{I} _t - w_t )= \チルダ{I} _t \ CIRC(I_T \ CIRC \チルダ{F} _t + 1 - \チルダ{F} _t)\\ C_T = \帽子{F} _t \ CIRC C_ {T-1} + \
帽子{I} _t \ CIRC \帽子{C} _t \] 次に、我々は、上記の更新規則を理解する方法について話しています。簡単にするために、我々は、主がまだドアを忘れていると仮定する(\チルダ{F} _t \ \) であります\((0、\ドット、 1、\ドット、1)\) タイプ、対応する主入力ゲート\(\チルダ{I} _t \)である\((1、\ドット、 1,0、\ドット、 0)\)ベクトル型。

前記\(W_T \)である\(\チルダ{I} _t \) と\((1、\ドット、 1,0、\ドット、0)\) の交差部は、それが形状を有していなければならない(\(0 、\ドット、1、\ドット、1,0、\ DOTS、0)\) か月1)。それでは、議論してみましょう:

場合\(W_T \)全て0ない交差点が存在しないと言うことである、二つのドアが、そこである:
\ [\ _tがチルダで_tハット{F} = \ {F}が\ _t帽子{I}である= \チルダ\\ありされています{I} _t \\ C_T = \帽子{F} _t \ CIRC C_ {T-1} + \帽子{I} _t \ CIRC \帽子{C} _t = \チルダ{F} _t \ CIRC C_ {T- 1} + \チルダ{I}
_t \ CIRC \帽子{C} _t \] 左部に示した場合上記のように、記憶部を更新するには、\(\ {F} _tはチルダが\である場合)、\(C_ {T-1 } \)上位情報にコピーされる\(C_T \) \、(\ I} {チルダが\ _tされている)\(\ハット{C} _t \)は下位情報にコピーされる\(C_T \) 中間互いに素面積はnoです。

場合\(W_T \)ではない全て0、二つのドアは、この時点であり、ある交差点がある:
\ [C_T =(チルダある_t \ {F}がある- W_T)\ CIRC 1-C_ {T} +(\チルダです。 {I} _t -w_t)\ CIRC
\帽子{C} _t + [F_T \ CIRC w_t \ CIRC C_ {T-1} + I_T \ CIRC w_t \ CIRC \帽子{C} _t] \] このとき、メモリ部図更新の右側部分に示すように、更新は、3つのセクションに分割されます。メインドアを忘れてしまったし、役割のメインゲートはまだ同じである入力されたが、交差点の領域は、二つのドア一緒に、それが標準LSTMフォームに委譲。

忘却メインドア\(\チルダ{F} _t \) メモリを消去するためにコントロールが、それは分割点である\(D_F \) \(D_F \)より大きい表現よりハイエンドの更新情報が出て消去します。マスター入力ゲート\(\チルダ{I} _t \) メモリの書き込みを制御し、それが分割点である\(D_I \) \(D_I \)長く大きい表現より多くの地域情報ライフサイクル。そして\(W_Tが\)この部分は、標準LSTMプロセスを用いて、また、前のセクションの両方が含まれている現在の入力情報に関する情報を含む二つのドア、に分散されています。

これらのドアはちょうど粗粒制御のメインメモリに焦点を当てているので、隠された寸法の使用は、計算された状態では、計算の偉大な量は必要ありませんもたらすでしょう。だから、実際に紙の寸法定義ゲートである(D_m = \ dfrac {D} {C} \)\\(D \)は隠された状態の寸法であり、\(C \)は、ブロックサイズ因子(チャンクサイズ係数)です。そして中(F_T \)\\(I_T \)要素ごとの乗算の前に、各ニューロンが繰り返さ\(C \)回復する時間を\(D \)の寸法を。この実施形態は、効果的にON-LSTMパラメータの次元削減を減らすことができます。このモードを使用した後、元のドアのうちの対応するニューロンは、連続となる\(C \)ニューロンはゲートを共有します。

実験

言語モデリング、教師なしconstiuency解析における論文は、構文上の評価を目的とし、論理的な推論は、4つのタスクに実験を行いました。タスクの最初の性能に以下のように:

这里重点提一下unsupervised constiuency parsing这个任务,这个任务的评测方法是将模型推断出来的树结构和人工标注的结构进行对比。为了使用预训练的模型推断一个的树结构,论文首先将隐状态初始化为全零,然后将句子输入模型。在每个时间都,都对\(d_f\)计算期望:
\[ \hat{d}_f = \mathbb{E}[d_f] = \sum_{k=1}^{D_m}k p_f (d_t=k) = \sum_{k=1}^{D_m} \sum_{i=1}^k p_f(d_t = k) = D_m - \sum_{k=1}^{D_m} \tilde{f}_{tk} \]
其中\(p_f\)是主遗忘门分割点的概率分布,\(D_m\)是隐状态的大小。给定\(\hat{d}_f\),可以使用自顶向下的贪心算法进行解析。首先对\(\{\hat{d}_f\}\)进行排序,对于序列中的第一个\(\hat{d}_f\),将句子分成\(((x_{<i}), (x_i, (x_{>i})))\),然后对\((x_{<i})\)\((x_{>i})\)两部分再次运用上述方法,知道每个部分都只包含一个单词。

おすすめ

転載: www.cnblogs.com/weilonghu/p/11939365.html