(言語(RNNの最適化)のリカレントニューラルネットワークの知識に基づいて)「自然言語処理(NLP)」カーネギーメロン

出典:AINLPerマイクロチャネルパブリック番号(それを見るためにクリック
編集:ShuYiniは
校正:ShuYini
時間:2019年12月23日

TILE:リカレントニューラルネットワークのための言語知識としてメモリ
コントリビュータ: Bhuwan Dhingra、Zhilinヤンと他の(カーネギーメロン大学)
ペーパー: https://arxiv.org/pdf/1703.02620v1.pdf
コード:なし

抽象

    長期的な依存関係を確立するために、リカレントニューラルネットワークを訓練することは非常に困難です。この記事では、メモリモデルを使用すべきかを伝えるためにクリア信号として、言語の外部の知識を使用しますすなわち、任意の距離の要素間のエッジの配列を有するタイプの増加外部知識の使用、及び結果は有向非巡回サブグラフ分解図です。我々は、図の形式の明示的なメモリをエンコードし、モデル化されたテキストの関係を参照するためにそれを使用するために、再帰的ニューラルネットワークモデルを提案しました私たちは、複数のテキスト理解のタスクにモデルを適用し、(CNN、バビとランバダを含む)すべての標準的な配慮の最新結果を得ます。バビQAタスクでは、我々のモデルは15、各タスクの実施例20で唯一の1000年の訓練ミッションを解決します。表現するために学習の分析は、文書内のエンコードされたモデルきめ細かいエンティティ情報への我々の能力を示しています。

提案手法の紹介

    非連続配列を使用して固有の図は、広く非循環有向グラフ(DAGの)、及びトポロジカルソート複数に分割します。我々は、各ノードの唯一の表現図コンタクトの場合に算出されるRNN(MAGERNN)フレームを、符号化メモリの非環状グラフを導入しました。各エッジに沿って伝播学習MAGERNNは経験上の優れた性能につながる個々の種類を表します。状況の特定のタイプの単一の入力側に次のノードまでに、それは従来のRNNに低減される符号信号によって決定されるメモリアクセスメモリを、拡大しました。
    使用MAGE-RNNテキスト読解タスクモデリングが関係、文書の文脈から抽出されなければならないクエリに対する答えを引用しました。文書内の同じ参照番号はエンティティの根底にある場合、それらは共通の参照関係で接続されています。文書の理解の開発のためのこの関係は、したがって、我々は明示的に関連するメモリに言及したことにより、テキストRNNアーキテクチャの理解を高めるためには、認識することが非常に重要です。

導入された特定の方法

有向非巡回グラフの複数の配列(のDAGの配列)

    同じエンティティに接続されたエッジの一種類は、繰り返し(共参照)を挙げることができる、別のエッジが(センスおよびアンチセンスで)その具体例の総称に接続することができます。図1    図1に示す簡単な例。任意のテキストセグメントは、このように拡大して実行されている標準的な前処理ツールを介して(例えば、エンティティ参照は、標識されたリンカー)することができます。それぞれについてA DAGは、グラフ内のすべてのエッジがシーケンス内の次のノードの前のノード点であるようなシーケンスでトポロジカルソートノードが存在します。シーケンスのために 1 2 T ) (1,2、...、T) 、その逆配列 ( T , T 1 1 ) (T、T-1、...、1) 我々はそうするための枠組みを議論するの下に、モデリング用のRNNに特に適しのDAGのこの順序の存在。

MAGE-砂利

    共通の基準の場合には、任意の関係が存在する、または任意のノードに入ってくるエッジの最も特定のタイプで、DAGは、独立した鎖の組に分解することができます。図に示すように、次に、単に定期的な更新GRUに結合範囲(2)内の電子のために更新されてもよいです。図2

複数の配列の場合

    一部のアプリケーションでは、我々は関係知らその要素の相互作用によって、複数の配列を持っています。3、最初のコンテキストが段落の配列である例を示し、第二の配列は、この段落によって問題提起のためのものです。配列のさらなる拡張は、共通の基準及び循環半減図相互順序関係を使用することなく得られます。図3    ダグはこれが設定およびMAGE-GRUは要素のシーケンスを学習する上で提供されて爆発しました。同時に、我々は、分解した後でのDAGのシーケンスの元の順序を保持したいです。我々はSシーケンスがあるとし X 1 X S {X1、...、XS} 一つの方法は、そのようなものである:配列の各セットに対して整列 ( X k 1 , X k 2 X k S ) (X_ {K1}、X_ {K2}、...、X_ {KS}) 、前方と後方のサブピクチャに分割され、しかし、これは2S!のDAG、計算のように多量のコストを生成します。代わりに、我々は、シーケンスのランダム置換のために、ここで提案し、前進と後進のサブ図にそれらを分解する。このように、図の各エッジまだトラバース回任意の追加費用なしで、単独での処理シーケンスと比較し、(一度両方向には横断しなければなりません)。さらに、MAGE-GRU多層拡張は、図中の任意の経路を介して情報の流れを可能にすることができます。

実験結果

図4    図4に示す我々は提案モデルといくつかのベースラインモデル。比較はQRNsとして、我々のモデルは、強力なベースラインを超え、最も先進的な結果をしたことがわかりました。加えて、我々はこの方式が大幅に双方向つる座やガスのパフォーマンスを向上させることができますことを観察しました。同じワンホットプロパティ情報を追加して、パフォーマンスが向上しない、我々は便利MAGEで使用している誘導偏差を示唆しています。図5    図5に示すメイジQRNsとパフォーマンス。現在BAB私最も先進的なQRNs上の2つのデータセットよりもMAGEの改善はるかに良いです。
    本明細書で使用する場合、各段落のスタンフォードCoreNLPのtools4データセットは、チェーン共抽出、およびベースラインモデルを参照し、図に示すように提案MAGE-GRUの性能を比較した。6。6

注意

また、より多くの自然言語処理知識、してください注意を払う** AINLPer **ノー公共、即座に配信最高のドライ。

公開された43元の記事 ウォンの賞賛3 ビュー3813

おすすめ

転載: blog.csdn.net/yinizhilianlove/article/details/104033180