概要
(深い文脈)文脈深単語のための新しいタイプ:
- 複雑なアナログワードの機能(例えば、構文及び意味論)の使用
- 単語の使用をシミュレートするために、異なるコンテキストで(使用言語はコンテキスト間で変わります)
その他のポイント:
- 単語ベクトルは、言語モデル(biLM)深い双方向言語モデル(biLM)の内部状態の内部状態(ベクトルが学習された機能を学習深さの関数双方向であります
- 前露光の奥深くには、下流のモデルは半教師信号の異なるタイプを混在できるように、ネットワークを訓練することが重要です。
前書き
ELMO(言語モデルから、組み込み環境)、彼らはBilmの全ての内部層の関数である。
ELMO表現が深いです。より具体的には、我々は各ワードベクトルの各末端の線形結合を研究(我々は、の線形結合学ぶ 、各エンド・タスクの各入力単語の上に積層ベクター) LSTMのみ上部層を用いて有意によりパフォーマンスが向上します。
LSTM ハイレベルの状態が良好ワード(例えば、WSDタスク)の意味の文脈で理解することができ、
低レベルの状態より良い性能(例えば、POSタグ付け)文法モデル。
同時に、これらの信号の全てを露出させる(より高いレベルのと低レベル状態非常に有益であるらしいです)。
関連研究
以前ベクター単語を学習するための方法は、各単語は、コンテキストに依存しない表現を有することができます。
使用して文字畳み込みを、我々のアプローチは、サブワード単位の恩恵を受ける、と私たちはシームレスに明示的に事前に定義された意味の種類を予測するために訓練することなく、下流のタスクに曖昧情報をマージします。
ディープbiRNNsの異なる層は、異なる種類の情報を符号化する。AディープLSTMのマルチタスク構文監督アットザ低レベルがCOMMUNICAITIONSレベルのタスクのような依存性の解析やCCGスーパータギングのIn領域の全体的なパフォーマンスを向上させることができ紹介。
修正エルモ表現言語モデルをターゲットは、半教師付きのこれらの異なるタイプの混合モデル下流タスクは非常に有用である学習、同様の信号を生成します。(このようなPOS情報を学習したネットワークインフラ層上に他の信号のように、高いlstmlayerは、語義を学びました)
本論文の方法:対象のラベルなしデータとbiLM 前処理し、我々は重みを修正、および容量(の余分なタスク固有のモデル追加追加のタスクモデル容量固有の追加が)、私たちは、大規模な豊かでbiLMが発現汎用性を使用することができ、監督の下流モデルの小規模なトレーニングデータ要件の場合で使用します。
3エルモ:言語モデルから、組み込み環境
エルモワード表現は、全体入力文の関数です。彼らです
- 文字の畳み込みで二層biLMsの上に計算され、
- 内部ネットワーク状態の線形関数として。
3.1双方向言語モデル
3.2エルモ
教師NLPタスクのbiLMsを使用して3.3
事前に訓練を受けたbiLMとターゲットNLPタスクのための教師のアーキテクチャを考えると、タスクモデルを改善するためにbiLMを使用するための簡単なプロセスです。
エルモ也是:
- 単にbiLMを実行し、各単語のためのレイヤー表示のすべてを記録。
- エンドタスクモデルは、これらの表現の線形結合を学びましょう
具体的に:
-
NLPのモデルの一番下にある監督の多くは、私たちは一貫し、統一的な方法でエルモを追加することを可能にする共通のアーキテクチャを共有しています。
-
:教師ELMOにモデルに追加
(1)凍結ザBilmの重みは
(2)CONCATENATE ELMO K タスクとX Kは、補強が表す[X K ; ELMO K タスク ]とRNNに加えます。一部のタスク(例えばSNLI、チーム)のため、Hから線形重み出力の別のセットを導入することによって、Kは:で置き換え[H K ; ELMO K タスク ]、さらなる改善を観察することができます
残りsuperveisedモデルが変更されていない、これらの追加は、より複雑な神経モデルのコンテキストで発生する可能性があります
たとえば、次のクラスタリング・モデルbiLSTMの上biLSTMs +バイ注意層、または1
-
エルモは、ドロップアウトが有益で適切な量を添加すること
エルモ重みを正則化する損失^ 2 || wは||λを追加いくつかの場合には有利である
ELMOを重み付け誘導バイアスに印加され、それはすべて閉じbiLM層の平均です。
3.4事前訓練を受けた双方向言語モデルアーキテクチャ
両方向にbiLMs紙支持共同訓練を事前に訓練された、およびLSTM残留接続との間の層を追加します。
CNN-BIG-LSTMモデル、マイナス埋め込みや隠された寸法の半分。
4096の単位及び512と2つのbiLSTM層次元突起
第二層接続残留する第一層との間
のコンテキストINSENSITIVE表現型2048文字nグラム畳み込みフィルタ
二つハイウェイ層
512まで下方に延びますこれは、の線形投影表し
10のエポックのためのトレーニング(後方で僅かに低い値。)
したがって、biLMは、純粋な文字入力トレーニングセットに示されていないものを含めて、それぞれの入力文字表示のための3つを提供します。(対照的に、従来のワード埋め込む方法は、唯一の語彙が確定文字として表現されています。)
エルモ使用サマリー
サマリーからの参照:このブログ
- 事前研修biLMモデルの大規模コーパスで。モデル間の双方向LSTMの二層からなるモデルは、残留接続によって接続されています。そして著者は、双LSTMの下位層は、構文情報コーパスを抽出することができ、高レベルの双方向LSTMは意味情報コーパスを抽出することができると信じています。
- 私たちのトレーニングコーパス(ラベルの除去)では、微調整biLMモデルを事前に訓練を受けました。この手順は、ドメイン転送biLMとして見ることができます。
- ワード埋め込みELMO、すなわち、時々入力で添加することができる、入力としてタスクを使用して生成され、また、出力に加算されます。
4評価
6つの異なる基準(ベンチマーク)NLPタスクセットにおけるELMO性能は
単に追加エルモは、新しい状態-確立最先端結果。
たとえば、QAに:
私たちのベースラインIS ANは注意のモデルバージョン双方向フローモデル(改良されたBiDAF ; 2017)注意コンポーネントザ・双方向の後、注目のIT ADDS Aセルフ層を、簡略化されプーリング、LSTMsはGRUに置き換えます。ベースラインモデルにエルモを添加した後、F1が大幅に向上します。
また、エンティティ抽出名前テキストの含意、意味役割ラベリング、共参照解決、感情分析が改善されています。
5分析
アブレーション解析
セマンティック情報は、上位層に取り込まれている間に構文情報は、より良い下位レイヤで表されます。
5.1代替レイヤ重み付け方式
biLM層を結合するために、式1は多くの選択肢があります。
効果的にこのような大きな値は画像層λ=、より小さい値一方(例えば、λ= 0.001)層上に、重み付け関数の単純平均値を減少させるため、さらに重要である正則化パラメータを選択すると、重量変化を可能にします。
すべての層は、より多くの最後の層からコンテキストを含む増加、全体的なパフォーマンスは、ベースラインは、パフォーマンスを向上させることができ表しよりも最後のものだけで表しているが含まれています。小さなλはエルモと、ほとんどの場合において好ましいです
5.2どこエルモを含めるには?
この記事のすべてのタスクのみワードアーキテクチャは、入力として最低biRNNへの入力を埋め込まれました。しかし、我々はエルモがタスクにアーキテクチャ固有の出力biRNNに含まれ、ことが判明し、特定のタスクの全体的な結果を改善することができます。
一つの可能な説明は、エルモの導入は、この層において発現内部biLMに直接注目にモデルを可能にするようbiRNN後SNLIと分隊アーキテクチャは、注目度を使用することです。
5.3どのような情報がbiLMの表現によって捕獲されましたか?
エイブルのIS Bilmはboth-で明確にする品詞で(意味)とソース文の中に語義(ソース文の意味的な曖昧さ)。
紙を参照してください。
5.4サンプルの効率
モデルにエルモを追加することの両方の点で、かなりサンプル効率を増大させるパラメータの数最先端の性能と到達する更新全体的なトレーニングセットのサイズを。
エルモが強化されたモデルは、より効率的にエルモなしのモデルよりも小さいトレーニングセットを使用します。
6.おわりに
我々はまた、biLM層が効率的にwordsin-コンテキストに関する構文とセマンティック異なる種類の情報をコード化し、すべての層を使用すると、タスク全体のパフォーマンスを向上することをことを確認しました。