マシン読解(主にNRC)
MRC:データの収集と技術-主に神経読解
データセット(詳細なデータセットやメモ紙の地図を参照してください)
- 解答抽出データセット:triviaQA \ SQUAD1.0 / 2.0; triviaQA; WIKIHOP(マルチホップ推論)
- 描述性の記述:NarrativeQA \ unanswerable質問)
- 複数の選択肢の答えは複数の選択肢:RACE; CoQA; ARC
- 将来のデータセットの傾向の背後にあると言うだろう
基礎MRC
RCタスクの四つのカテゴリー
- 穴埋め式、問題はプレースホルダープレースホルダーが含まれます
- 複数の選択肢の答えが、単語、フレーズや文章を入力して-CoQA
- レンジ予測タイプ(リムーバブルQ抽出質問応答)、答えはテキストの範囲でなければなりません。したがって、答えは(a_start、a_end)SQUADのように表すことができます。
- 自由形式の回答タイプ(自由形式の解答)、答えはテキストa∈VCoQAの任意のフォームをできるようにすることです
あるマルチホップマルチホップ推論質問:hotpotQA
推論のPS型
ワードマッチング
言い換え
SINGLE-文推論
マルチ推論文を
曖昧/不足
同一指示解決を
評価指標
一般的に使用されます:
- EM(完全一致)、F1(F1スコア算出された平均ワードオーバーラップ)
- 自由形式の回答読解タスクは理想的な評価ではありません
MRCとQA
- RC高性能なシステムが重要な問題と解答/対話システムとなっています。
- QAの一例として、RC;が異なる事を強調する:
QAの目標は、システムを確立することである、システムがどのリソースに依存してもよいです。
RCテキスト理解に重点を置い及びそのうちのいくつかは、言語理解の急性の問題の程度の尺度、物品自体ではなく、世界のあらゆる知識から回答理解質問に対するので、すべての情報であると考えられています。
基本的なビルディングブロックNRC
- ワード埋め込み(現在の文字の埋め込み\コンテキスト埋め込みがあります)
- RNN又は状態の段落場合NLPモデリング(バリアントLSTMつる座二RNN、等)
- 注意メカニズム(最近の動向トランス、注意メカニズムのみに頼るトランス新しいニューラルネットワークアーキテクチャ):
\ソフトハード\コ\バイ\自己一致
MRCモデル(MRCレビュー論文をまとめたもの)
-
ほぼすべてのモデルはSQUADが同じフレームワークは以下のように要約することができません、次のとおりです。
埋め込み層、エンコード層、相互作用層と回答層。
しかし、異なるReasonNet、使用したメモリ・ネットワークの枠組み+強化学習、模倣人間の推論過程
-
NNは、構造に関する:R-NET \ FastQA \ QANET Q&アーキテクチャー(だけではないRNNで構成畳み込み+自己注目することによってエンコーダ)
-
バート(それは言語の双方向Transformerモデルになります)\ XLNet:言語モデルを見ます
詳細とヒント:
- 積み重ねられBiLSTMs
(あなたは、双LSTMsをコードする質問&通路の深さを増加させることができ、より優れた単層よりBiLSTMを積み重ね)
- 脱落
(LSTM埋め込み層入力、隠れたベクトルに加えてもよいです)
- 単語の埋め込みを扱います
(または編成は埋め込みは、微調整、すべての単語十分な大きさである場合、小さなトレーニングセットは、静的特徴として固定することができる場合)
- 微調整
微調整に便利です。(どのようにこれは何のような)一般的に使用される質問の言葉!
- 統合されたモデルは、さらにいくつかのポイントのパフォーマンスを向上させることができます!
[良い]キーコンポーネントと改善:
-
以下のための最近の進歩:
事前研修言語モデルの初期化、
よりきめ細かい配慮の仕組み、
データ拡張技術、
優れたトレーニングの目的
改善するためのいくつかの方法で:言葉で、言った注意メカニズム、LSTMsバリアント、他の(訓練目標、データ拡張) -
ワード氏は述べています:
- 分散もっと良い言葉表現を学習、もっと良い言葉が(そのような場所で更新fasttextベクトル表現と手袋など)特定のタスクのセットに組み込まれている見つけます
- 文字埋め込み文字embeddigns(より稀な語彙外の単語または単語 - >表面モードCNN nグラム文字チャーCNN)
- 埋め込み単語の文脈 - (例えばエルモ、組み込み環境など)の重要な技術革新
- 埋め込み非常に効果的なの文脈に埋め込まれて非常に大きなテキストコーパスの単語を事前に訓練された+ +組み込みワードが埋め込まれた伝統的な文字で使用されている単語の文脈、
----上記の統計によると、多義性の問題を解決することはできません----
ELMO(LM用埋め込み)は、多義性の問題を解決することができます
GPT-- LSTMを使用しないで、変圧器使用
バート(できないプロセスが複雑な推論が必要ですBERTの利点の例は以下を参照)
、GPT \ GPT2が一方向学習単語を表現する言語モデルを使用している双方向のBERTの使用は、ELMOもののコンテキストのコンテキストを考慮しなくBERTとして良いとして
-
事前トレーニング方法
現在、前期のトレーニング方法では、主に2つのタイプに分けることができます。- 内部状態を隠された事前の事前訓練を受けた言語モデルのパラメータのタスク組合せを行うことを学ぶためのモデルとエルモの主な代表の特長(機能ベース)、
- (微調整)をトリミングの主な代表は、openAI GPTを持っているタスクは、言語モデルに訓練された微調整にデータを使用しました。
テキストのみ、語彙のコンテキスト情報を学習しながら問題のない、常に良い解決策(ELMOは、単に一緒にのみ二つの方向ステッチ)、この記事を考えるとき、一方向の順序は、事前研修に複数の事前研修の問題よりもございれますBERTは、事前に訓練された言語モデルの新しい方法を提案しました。
-
注意メカニズム - キャプチャの問題と記事への意味的な類似性の間
- 双方向の注意
- 自己の注意
私はそれが相互参照の問題を解決することを願って、単語の記事の言葉に、他の記事と整合し、かつコレクト(同じエンティティ)の記事の複数の場所からの情報をすることができます-段落。
注意だけでなく(\ソフトハード\コ\バイ \自己一致)- 変成器:
注意のメカニズムの一つの種類は、テキストの単語間の関係の文脈を学ぶことができます。プロトタイプは、2つの独立した機構で構成され、テキストエンコーダは、入力として受信する責任があり、デコーダは、タスクの結果を予測する責任があります。
BERTの目標は、これだけエンコーダのメカニズムを必要とする、言語モデルを生成することです。
- LSTM交換
LSTMは、スケーラビリティの問題が消えて傾斜するので、層の数は、トレーニング時間が直線的な成長で増加します。
方法:
残留層の間の接続を追加またはコネクタ1を伝える
あるいは2.(RNN置換)LSTMを:変圧器、SRU
例:QANET Qアーキテクチャ(RNN無しのみ畳み込み+自己注目組成物によるエンコーダ) -
トレーニングの目的の改善:
- 穴埋めや多肢選択問題:最大のクロスエントロピーまたはマージナル損失
- 混合トレーニング目標、強化学習と組み合わせ重複エントロピー損失及びトレーニングの量後単語の交差点の位置、予測スパンスパン予測:,グランドトゥルースと金応答重なり間単語に関する
- 自由形式のQA:より良いseq2seq;文レベルのトレーニング、最小のリスクトレーニング
-
データの強化:
- データ増強:SQUADとTRIVIAQA共同訓練(ジョシら、2017)が適度SQUADのパフォーマンスを向上させることができます。
- データセット全体で確立することをより多くの研究を学び、学習高性能マルチタスクモデルの転送
今未来の対
既存の問題:
数値推論、マルチホップ推論問題、または問題が大規模なドキュメントやQA文書ではありません。記事によると、あまりにも簡単な質問を提起し、マルチセンテンスの推論を必要としない、スパンでの唯一の問題の記事は答えることができる可能
既存の問題:最後の文の追加気晴らしは、シーケンスの効果が悪化非文法的単語を追加。
- 現在のモデルは、記事や語彙の手がかり間の問題に大きく依存しています。文を邪魔することはそれほど破壊的になります。
- モデルは、独自開発のセットで、高精度を実現しますが、例の対立のために、彼らの堅牢性は強くありません。これは、それが困難な既存のモデルは、現実の世界で展開することができ、重要な問題の標準学習パラダイムを監督しています。
- 現在のモデルは(わずかに)より深いレベルを理解する上でテキスト情報の表面にのみ焦点を当てて、単純なミスが依然として存在します。
- 難しさのいくつかの例は、複雑な推論SQUADが必要ですが、そのため希少性のため、その精度は本当に平均メトリックには反映されませんがあります。
今後の動向
データセット:SQUADと比較すると、これらのデータ・セット:
- またはより複雑な相互時間推論またはドキュメント(hotpotQA複数の文書)、またはより長い処理ドキュメント(triviaQA NarrativeQA)、RNNは非実用的コーディングと長い文書を必要とします。
- どちらかあなたは自由形式の答えではなくエキスよりも、単一のスパンを生成する必要がある、(NarrativeQA)
- どちらかあなたは記事が答えではない時期を予測する必要があります。(SQUAD2.0)
未来のモデル:
-
高速化とスケーラビリティは、長い文書に拡張することができます
(例えばTRIVIAQA用)非常に長い文書でコーディングRNNあるいはブック(例えばNARRATIVEQAは)それはまだ挑戦で、非現実的です
高速化(トレーニングや推論のための)モデルを構築
- 非再発性または軽量モデル変圧器モデル置換LSTMs
- そう速く実行するために、すべてのコンテンツを読んでいない、ドキュメントモデルの一部をスキップする訓練や学習;論文:Yuら(2017)と瀬尾ら(2018年)。。。
最適化された選択アルゴリズムも大幅収束速度に影響を与える、マルチGPUのハードウェア性能
-
堅牢性:
トレーニングと評価のためのデータセットを分割する:たとえば、既存の敵対モデルは非常に脆弱であり、現在の仕事のほとんどは、標準的なパラダイムに従っています。未来:
1.どのように対立のより良いトレーニング例を作成し、訓練プロセスに追加するには
学習とマルチタスク学習、データセット全体の高性能モデルの確立の移行のより詳細な研究のために2。
3.ブレーク標準は、パラダイムを学ぶ監督、そして私たちの現在のモデルを評価するためのより良い方法を作成する方法を検討します -
解釈可能:解釈可能(難しいです)
1.学ぶための最も簡単な方法は、支持する証拠として、入力文書から抽出断片にモデルを依頼することです
モデル構造:欠落している要素
- 現在のモデルは、すべての単語(例えばトランス)のシーケンスモデルハンドル上または対称のいずれか基づいていますが、言語の固有の構造を無視しています。
- 言語/構造の知識は、まだ既存のモデルに有用な付加です。
- 既存のモデルのほとんどは、まだ不足しているモジュール(モジュール)のもう一つの側面である私たちは読解のより深いレベルを達成する必要がある場合は、私たちの未来のモデルは、複数のタスクを解決するために統合され、モジュラー、構造化されたサブ問題の数に分けることができ、我々は、(例えば、推論の種類ごとに)すべてのより小さなサブ問題単独及びそれらの組み合わせを解決することができます。
調査質問
-
評価指標読解?
参加者は、システムのパフォーマンスを理解するための良い戦略を読み取ることができる評価機としてテストを標準化しました。
将来は読解データ父島の多くはだけでなく、データセット上でテスト、評価するためのテストスイートになる必要があります。
それはより多くの建物の行動モデルに挑戦し、データの収集と分析における重要なステップとなり、その品質に求められるスキルの説明と回答質問へ:私たちはより良い当社の既存のデータセットを理解する必要があります。 -
理解のパフォーマンスモデルの読み込みに与える影響の役割の建築対表現
2つのモデルが両極端を示しています。表現の一方教師なし信じられないほどのパワーオン(ラドフォードら、2018 ;.デブリンら、2018)。事前に訓練されたテキストの大量の強力な言語モデル、モデルは、言語、およびそれらの間の依存関係を学ぶのに十分な接続章と問題の簡単なモデルをコーディングに関する多数の属性を持っています。(完全事前に訓練された言語モデルを使用すると、大幅にネットワーク構造のビジネス面の複雑さを軽減することができます)
言葉だけ与え埋め込まれている場合一方、記事と、問題のモデル化(またはそれ以上の事前知識モデル)の間の相互作用を助けるようです。
将来的に教師なし学習と転移学習についての詳細な研究、奨励。
*モデル(チェン紙を保存することができます)
- 章コーディングおよびコーディングの問題(質問エンコーディング&通路エンコーディング)
気配りスタンフォードエンコードテキスト
リーダースプライシングスプライシングを:挿入言葉、チャプタートークン、EM、ALIGN 4つのコンポーネント - 問題と短期との間の類似性関数のコンテキストを計算する( - 類似率の通過問題を得ました)
- 答え予報(開始位置2つの分類器を訓練するために注意)
- トレーニングと推論トレーニングと推論(ここでは訓練の目的は、クロスエントロピー損失最小化することである - 一般的な方法の形で一般的な質問と回答)
MRCの研究方向
- Q空地(情報検索+読解)、一般的な質問に答えます
- 対話文の数ラウンドにわたって質疑応答セッション(対話+読解力)の形で