インコンテキスト学習はどのように機能しますか? スタンフォード大学の学者がベイジアン アプローチを使用してその謎を解明

翻訳者 |

ユニット | ノースイースタン大学自然言語処理研究室

から | 機械翻訳アカデミー

NLP グループに入ります —> NLP 交換グループに参加します

Sang Michael Xie、Sewon Min著

序章

昨年末、OpenAI が開発した ChatGPT がリリースされ、誰もが驚きましたが、同時に考えることもありました。どのような技術が使用されましたか? ChatGPT の可能性を最大限に引き出すにはどうすればよいでしょうか? ChatGPT の背後にあるコア テクノロジである大規模な言語モデルは、間違いなく最も重要なものの 1 つです。同じく OpenAI によって開発された大型モデル GPT-3 には、1750 億のパラメーター ボリュームがあります。このような大規模なモデルは、多くの機関が研究開発のコストを削減できるだけでなく、その背後にある動作原理について多くの研究者を「混乱」させます。多くの研究が行われていますが、言語モデルはどのようにして驚くべき「言語理解能力」を獲得しているのでしょうか? その中でもインコンテクスト学習とは、大規模な言語モデルで発揮される特殊な能力で、関連するいくつかの例をモデルに「見せる」ことで、モデルはこのタスクで何をすべきかを「学習」し、テストのサンプル回答を与えることができます。しかし、モデルはどのようにしてこの特別な「スキル」を獲得したのでしょうか? スタンフォード大学の Sang Michael Xie らは、コンテキスト内学習はプロンプトの 4 つのコンポーネント (入力、出力、フォーマット、および入出力マッピング) を使用して暗黙の言語を取得するベイジアン推論プロセスと見なすことができると考えています。潜在的な概念は、トレーニングプロセス中に言語モデルによって学習された特定のタイプのタスクに関する特定の「知識」です。2022年のICLRカンファレンスで関連作品が発表され、著者らもブログで詳しく紹介しています。インコンテキスト学習の謎を理解するために翻訳者をたどってみましょう!

元のリンク: http://ai.stanford.edu/blog/understanding-incontext/#a3

ブログのテキスト

この論文では、GPT-3 などの大規模な言語モデルにおけるコンテキスト内学習のためのベイジアン推論フレームワークを提供し、フレームワークの実験的証拠を提示し、従来の教師あり学習との違いを強調します。このブログ投稿では、主に、論文「An Explain of In-context Learning as Implicit Bayesian Inference」のインコンテキスト学習の理論的フレームワークと、Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? の実験を利用しています。

In-context learning は、大規模な言語モデルにおける不思議な創発的動作であり、言語モデルはパラメーターを最適化せずに、入力と出力の例を調整するだけでタスクを完了します。この論文では、コンテキスト内学習を、言語モデルが事前トレーニングされたデータから取得する基本的な「概念」を「見つける」ものとして理解するベイジアン推論フレームワークを提供します。これは、キューのすべてのコンポーネント (入力、出力、形式、および入出力マッピング) が、基礎となる概念を推測するための情報を提供できることを示唆しています。このフレームワークで関連する実験を行い、これらの実験の結果では、ランダムな出力を持つトレーニング例が提供された場合でも、インコンテキスト学習は効果的です。ランダム出力は従来の教師あり学習アルゴリズムを弱めますが、ベイジアン推論の 1 つの情報源 (入出力マッピング) のみを削除します。最後に、将来の作業のギャップと方向性を提案し、コミュニティに参加して、コンテキスト内学習についてさらに学ぶように勧めます。

目次

1. インコンテクスト学習の謎

2. インコンテキスト学習フレームワーク

3. 実験的証拠

4.拡張

V. まとめ

1. インコンテクスト学習の謎

GPT-3 [1]などの大規模な言語モデルは、インターネット規模のテキスト データでトレーニングされ、前のテキストから次のトークンを予測します。この単純な目標を大規模なデータセットとモデルと組み合わせると、非常に柔軟な言語モデルが得られます。この言語モデルは、任意のテキスト入力を「読み取る」ことができ、それを条件として、入力後に表示される可能性のあるテキストを「書き込む」ことができます。トレーニング プロセスはシンプルで一般的なものですが、GPT-3 の論文では、「大規模に」実行すると、コンテキスト内学習と呼ばれる特に興味深い予期しない動作が発生することがわかりました。

インコンテキスト学習とは?In-context learning は、GPT-3 論文で最初に普及しました。これは、言語モデルがいくつかの例を示すだけで関連するタスクを学習できるようにする方法です。インコンテキスト学習では、タスクを説明する入出力ペアのリストである「プロンプト」を言語モデルに与えます。ヒントの最後にテスト入力を用意し、言語モデルがヒントを条件として次のトークンを予測できるようにします。たとえば、下の図に示されている 2 つのプロンプトに正しく答えるには、モデルはトレーニング例を読み取って、入力分布 (金融または一般ニュース)、出力分布 (肯定的な感情/否定的な感情またはトピック) を把握する必要があります。入出力マッピング (感情分類またはトピック分類) と形式。

44e330d0ec1172b324ab07ff97fef13c.gif

インコンテキスト学習でできること 多くの NLP ベンチマークでは、インコンテキスト学習は、よりラベル付けされたデータでトレーニングされたモデルに匹敵するパフォーマンスを持ち、LAMBADA (常識的な文の完成) と TriviaQA (質問応答) で最先端です。さらにエキサイティングなコンテキスト内学習により、自然言語記述に基づくコードの記述、アプリケーション モデルの設計の支援、スプレッドシート機能の一般化など、さまざまなアプリケーションをわずか数時間で作成できます。

インコンテキスト学習により、ユーザーはタスクごとに新しいパラメーターを微調整して保存することなく、新しいユース ケースのモデルをすばやく構築できます。多くの場合、モデルを適切に機能させるために必要なトレーニング例はわずかであり、専門家でなくても直感的な自然言語を介して操作できます。

インコンテキスト学習はなぜこれほどまでに素晴らしいのでしょうか? インコンテキスト学習は、パラメーターを最適化しないため、従来の機械学習とは異なります。ただし、これは独自のものではありません。例から学習するモデルをトレーニングしたメタ学習メソッドがあります。魔法は、言語モデルが例から学習するようにトレーニングされていないことです。事前トレーニングで行うことは、次のトークンを予測することです。このため、言語モデルと文脈内学習は一致していないようです。

これは驚くべきことですが、インコンテキスト学習はどのように機能するのでしょうか?

2. インコンテキスト学習フレームワーク

インコンテキスト学習をよりよく理解するにはどうすればよいでしょうか? 最初に注意すべきことは、GPT-3 のような大規模な言語モデルは、ウィキペディアのページ、学術論文、Reddit の投稿、シェイクスピアの作品など、幅広いトピックと形式の膨大な量のテキストでトレーニングされていることです。これらのテキストのトレーニングにより、言語モデルが多くの異なる概念をモデル化できるようになると仮定しています。

Xie et al. [2]は、言語モデルがコンテキスト内学習キューを使用してトレーニング中に学習した概念を「特定」し、コンテキスト内学習タスクを達成するフレームワークを提案しました。下の図に示すように、私たちのフレームワークでは、言語モデルはトレーニング例を使用して、タスクが感情分析 (左) であるかトピック分類 (右) であるかを内部的に判断し、同じマッピングをテスト入力に適用します。

0ec1b53019546b1c94cc4135801049d7.gif

「コンセプト」とは?概念は、さまざまなドキュメント レベルの統計を含む潜在変数と考えることができます。たとえば、「ニュース トピック」の概念は、単語の分布 (ニュースとニュース トピック)、形式 (ニュース記事の書き方)、ニュースとニュース トピックの関係、単語間のその他の意味的および構文的関係を表します。多くの場合、概念はドキュメントのセマンティクスと構文のさまざまな側面を指定する多くの潜在変数の組み合わせである可能性がありますが、ここではそれらすべてを 1 つの概念変数として扱うことで単純化します。

言語モデルは、事前トレーニング中にベイジアン推論を行うことをどのように学習しますか?

基礎となる概念構造を持つ偽のデータで (次のトークンを予測するために) トレーニングされた言語モデルが、コンテキスト内学習を実行することを学習できることを示します。テキスト文書は本質的に長期的に一貫性があるため、同様の効果が実際のトレーニング前のデータで発生するという仮説を立てました。同じ文書内の文/段落/表の行は、基礎となる意味情報 (トピックなど) とフォーマット (質問と回答が交互に表示される Q&A ページ)。私たちのフレームワークでは、ドキュメント レベルの潜在的な概念が長期的な一貫性を生み出し、この一貫性は潜在的な概念を推測するための事前トレーニング中にモデル化されます。

1. 事前トレーニング: 事前トレーニング中に次のトークンを予測するために、言語モデルは、前の文からの証拠を使用して、ドキュメントの根底にある概念を推測 (「ローカライズ」) する必要があります。

2. コンテキスト内学習: 言語モデルがヒント内のコンテキスト内の例を使用してヒントの概念 (ヒント内の例によって共有される基本的な概念) を推測する場合、コンテキスト内学習が発生します!

インコンテキスト学習のベイジアン推論ビュー

ベイジアン推論の観点について説明する前に、インコンテキスト学習設定をセットアップしましょう。

  • 事前トレーニング分布 (p): 事前トレーニング済みドキュメントの構造に関する主な仮定は、ドキュメントは最初に潜在概念をサンプリングすることによって生成され、次に潜在概念に基づいて調整されるというものです。言語モデルが事前トレーニングの分布に完全に適合するように、事前トレーニング データと言語モデルが十分に大きいと仮定します。このため、p を使用して、言語モデルでの事前トレーニング済みの分布と確率を示します。

  • プロンプトの配布: インコンテキスト学習プロンプトは、独立した同じように配布されたトレーニング例とテスト入力のセットです。キューの各例は、学習するタスクを説明する同じキューの概念に基づいて条件付けられたシーケンスと考えることができます。

学習した概念を「見つける」プロセスは、ヒント内の各例で共有されるヒント概念のベイジアン推論と見なすことができます。モデルがキューの概念を推測できる場合、それを使用して、テスト例で正しい予測を行うことができます。数学的には、プロンプトはモデル (p) が概念の事後分布 p(concept|prompt) を鋭くする証拠を提供します。p(concept|prompt) がプロンプトの概念に焦点を当てている場合、モデルはプロンプトから概念を効果的に「学習」します。

977bea642cb1847ca33822aa26c1a3de.png

理想的には、p(concept|prompt) は、より多くの例を使用してプロンプトの概念に焦点を当て、周辺化によって対応するプロンプトの概念を「選択」します。

ヒントは、ベイジアン推論にノイズの多い信号を提供します

解釈においてあまり論理的でないのは、言語モデルがコンテキスト内の例からヒントの概念を推測することですが、ヒントはヒント分布からサンプリングされます。これは、言語モデルが使用されたトレーニング前の分布とは大きく異なる可能性があります。訓練を受けた。ヒントは独立したトレーニング例を連結するため、異なる例間の遷移は、言語モデルと事前トレーニング済みの分布の下では非常に低い確率であり、推論中にノイズが発生する可能性があります。たとえば、異なるニュース トピックに関する独立した文を連結すると、どの文にも十分な文脈がないため、一般的ではないテキストが生成される場合があります。興味深いことに、言語モデルは、GPT-3 に見られるように、事前トレーニングとヒント分布の違いにもかかわらず、ベイジアン推論を実行できます。ベイジアン推論によるコンテキスト内学習は、単純化された理論設定を使用して、事前トレーニング済みデータの潜在的な概念構造から出現できることを示しています。これを使用して、Transformer と LSTM のコンテキスト内学習を可能にするデータセットを生成します。

783335b8523ef92ed368e4b90e0c0fe6.gif

トレーニング例は信号を提供します:トレーニング例は、ベイジアン推論の信号を提供するものと考えることができます。特に、トレーニング例の変換 (上の図の緑色の矢印) により、言語モデルは共有する基本的な概念を推測できます。プロンプトのうち、入力分布(ニュース文間の遷移)、出力分布(主語)、フォーマット(ニュース文の構文)、および入出力マッピング(ニュースとトピックの関係)からの変換はすべて、ベイジアン Si 推論がシグナルを提供します.

トレーニング例間の遷移は確率が低い (ノイズが多い) 場合があります:トレーニング例は i.i.d. であるため、それらを連結すると、多くの場合、例間でぎくしゃくした低確率の遷移が生成されます。たとえば、フィンランドの循環収入に関する文の後に、NFC チャンピオンシップ ゲーム (アメリカン フットボールの試合) に関する文が表示されると驚くかもしれません (上の図を参照)。これらの変換では、事前トレーニング済みの分布とヒントの分布の違いにより、推論中にノイズが発生します。

コンテキスト内学習はノイズに対してロバストです:信号がノイズよりも大きい場合、言語モデルはコンテキスト内で正常に学習できることを示します。信号は、他の概念とキューに条件付けられたキュー概念との間の KL ダイバージェンスとして記述され、ノイズは例間の遷移からの誤差項として記述されます。直観的には、キューによってモデルがキューの概念を他の概念と本当に簡単に区別できる場合、強力なシグナルがあります。これはまた、信号が十分に強い場合、特にキューのフォーマットが変更されておらず、入力が出力マッピング情報は事前トレーニング データにあります。これは、入出力マッピング情報が削除されると失敗する従来の教師あり学習とは異なります (たとえば、ラベルをランダム化することによって)。この違いについては、次のセクションで直接調べます。

インコンテキスト学習用の小さなテストベッド (GINC データセット):理論をサポートするために、事前トレーニング データセットと、GINC という名前の潜在概念構造を使用したインコンテキスト学習用のテストベッドを構築します。GINC での事前トレーニングは、Transformer と LSTM の両方のコンテキスト内学習につながることがわかりました。これは、事前トレーニング データの構造が非常に重要な役割を果たすことを示唆しています。切除実験は、根底にある概念構造 (長期的な一貫性につながる) が、GINC における文脈内学習の出現にとって重要であることを示しています[2]

3. 実験的証拠

次に、一連の実験を通じて、上記のフレームワークの実験的証拠を提供したいと考えています。

プロンプトの入力と出力のペアは重要です

ヒントで実際の出力を使用しなくても、優れたコンテキスト内学習パフォーマンスが得られます。

Min らの論文[3]では、次の 3 つの異なる方法を比較しました。

  • 例なし: 言語モデルは、例なしで、テスト入力の条件付き確率のみを計算します。これは、GPT-2/GPT-3 で実装されている典型的なゼロ ショット推論です。

  • 実際の出力を伴う例: 言語モデルは、コンテキスト内の例とテスト入力に基づいて計算されます。これは典型的なコンテキスト内学習アプローチです。デフォルトでは、プロンプトのすべての出力は実際のものです。

  • ランダム出力の例: 言語モデルも、いくつかのコンテキスト内の例とテスト入力に基づいて共同で計算されますが、ヒントの各出力は、一連の出力 (分類タスクのラベル; の回答オプションのセット) からランダムにサンプリングされます。 .

4fb9cdb4c941837354bf9c572d7680b1.png

83404f660486d292902d2444a7472827.png

実際の出力でプロンプト (上の画像) とランダムな出力でプロンプト (下の画像)

「ランダム出力の例」アプローチはこれまで試みられたことがないことに注意してください。ラベル付けされたデータの出力がランダムである場合、タスクが意味をなさないため、通常の教師あり学習はまったく機能しません。

最大の GPT-3 (Davinci) を含む、774M から 175B の範囲のパラメーター サイズを持つ 12 のモデルで実験を行いました。モデルは、16 の分類データセットと 10 の複数選択データセットで評価されます。

02d1aacff6f9127e063b026837a2b800.png

例がない場合 (青)、実際の出力がある例 (黄色)、およびランダムな出力がある例 (ランダム) の比較; グラウンド トゥルースの出力をランダムな出力に置き換えると、以前に考えられていたよりもパフォーマンスへの影響がはるかに小さく、さらに例がない

各出力を出力セットからのランダムな出力に置き換えると、コンテキスト内学習のパフォーマンスはあまり低下しません。

まず、予想どおり、実際の出力で例を使用すると、例がない場合よりも大幅に優れています。次に、実際の出力をランダムな出力に置き換えても、パフォーマンスはほとんど低下しません。これは、典型的な教師あり学習とは対照的に、グラウンド トゥルースの出力は、直感に反する優れたコンテキスト内学習パフォーマンスに必ずしも必要ではないことを意味します。

ab06c62d693b247be90ff5c68b0b6c69.png

コンテキスト内の例の 4 つの異なる側面: 入出力マッピング、入力分布、出力スペース、および形式

正しい入出力マッピングがわずかな効果しかない場合、文脈内学習にとってキューのどの側面が最も重要ですか?

考えられる側面の 1 つは、入力分布です。これは、例の入力の基本的な分布です (下の画像の赤いテキスト)。その影響を定量化するために、コンテキスト内の各例が外部コーパスからランダムに抽出された入力文で構成されるデモンストレーション バリアントを設計します (トレーニング データからの入力ではありません)。次に、ランダムなラベルを付けたデモとそのパフォーマンスを比較します。直感的には、どちらのバージョンも入力ラベルの対応が正しくないことを示しています。違いは、正しい入力分布があるかどうかにあります。

dcb57f7c9b46c0646717e5befa7a5bc6.png

入力分布の問題: ヒントからの入力が外部コーパスからのランダムな入力に置き換えられると、モデルのパフォーマンスが大幅に低下します (CC News Corpus)

結果は、全体として、入力としてランダムな文を使用したモデルのパフォーマンスが大幅に低下することを示しています (絶対値で最大 16% の低下)。これは、正しい入力分布の条件付けが重要であることを示唆しています。

6ed2243546ac42f2f2b03ee1ae44e0e3.png

出力スペースが重要: 例の出力がランダムな英語の 1 タプルに置き換えられると、モデルのパフォーマンスが大幅に低下します

インコンテキスト学習に影響を与える可能性のあるもう 1 つの側面は、出力スペースです。これは、タスク内の一連の出力 (カテゴリまたは回答オプション) です。その影響を定量化するために、タスクの元のラベル (例: "wave") とは関係のないランダムな英語の 1 タプルのランダムな組み合わせを使用して、コンテキスト内の例で構成されるデモ変数を設計します。このデモを使用すると、結果は大幅なパフォーマンスの低下 (絶対値で最大 16%) を示しています。これは、正しい出力空間での条件付けが重要であることを示唆しています。これは、多肢選択タスクの場合にも当てはまります。おそらく、モデルによって使用される特定の選択分布が残っているためです (たとえば、OpenBookQA データセットの「ボルト」や「ネジ」などのオブジェクト)。

5dbd9e08e96bac64441b5e3810ec64f5.png

ベイジアン推論フレームワークへのリンク

言語モデルがヒントの入出力対応に依存しないという事実は、言語モデルが事前トレーニング中にタスクの入出力対応のいくつかの概念にさらされた可能性があり、コンテキスト内学習がその上で機能することを意味しますそれらの。代わりに、ヒントの他のすべてのコンポーネント (入力分布、出力スペース、および形式) は、モデルが事前トレーニング中に学習した概念をより適切に推論 (「ローカライズ」) できるようにするシグナルを提供しています。ランダムな入出力マッピングは、プロンプトでランダムなシーケンスを連結するため、依然として「ノイズ」を追加します。それにもかかわらず、私たちのフレームワークに基づいて、モデルはまだ十分な信号がある限りベイジアン推論を実行します (たとえば、正しい入力分布、出力スペース、および形式)。もちろん、正しい入出力マッピングを持つことで、より多くの証拠を提供し、ノイズを減らすことで、特に入出力マッピングがトレーニング前のデータに頻繁に存在しない場合は、引き続き機能します。

事前トレーニング中、インコンテキスト学習のパフォーマンスは用語の頻度と高い相関があります

Razeghi et al. [4]は、さまざまな数値タスクで GPT-J を評価し、文脈内学習のパフォーマンスが、GPT-J の事前トレーニング データ (The PILE ) 時間は高度に相関しています。

b48fc8b772ec1fe262095e45295ce4f5.png

単語の頻度 (x 軸) とコンテキスト内学習パフォーマンス (y 軸) の相関関係; 左から右へ: 足し算、掛け算、プロンプトでのタスク指示なしの足し算、プロンプトでのタスク指示なしの掛け算; Razeghi et al. より。ヒトデータ

これは、さまざまな種類の数値タスク (加算、乗算、および単位変換) および k のさまざまな値 (プロンプト内のラベル付けされた例の数) にわたって一貫していました。興味深い観察結果として、これは入力がタスクを明示的に述べていない場合にも当てはまります。たとえば、「Q: 3 かける 4 は何ですか? 回答: 12」を使用する代わりに、「Q: 3#4 とは何ですか? 回答」を使用します。 : 12インチ。

ベイジアン推論フレームワークへのリンク

この研究は、インコンテキスト学習が主に事前トレーニング中に学習した潜在的な概念をローカライズすることに関するものであることのさらに別の証拠と見なしています。特に、特定のインスタンスの用語が事前トレーニング データで複数回発生する場合、モデルは入力分布をよりよく理解できる可能性があります。ベイジアン推論によると、これにより、潜在的な概念をローカライズして下流のタスクを実行するためのより良いシグナルが提供されます。Razeghi らは、モデルが入力分布 (特定のインスタンスでの単語の頻度) についてどれだけ知っているかという 1 つの側面に特に焦点を当てていますが、入出力相関の頻度、形式 (またはテキストパターン)など

4.拡張

モデルが「目に見えない」タスクでどのように機能するかを確認する

私たちのフレームワークは、モデルが事前トレーニング中に学習した概念を「取得」していることを示しています。しかし、Rong [5] はブログ投稿で、モデルが動きを動物にマッピングしたり、野菜を動きにマッピングしたりするなど、目に見えないタスクでほぼ完全に機能することを示しました (以下)。また、モデルは例から不自然なマッピングを学習するため、この場合でも入出力マッピングは重要です。経験的に、1 つの可能性は、構築されたタスク全体で (私たちの実験が焦点を当てている実際の NLP ベンチマークではなく) コンテキスト内学習動作が変化する可能性があるということです。これにはさらなる調査が必要です。

それでも、概念を多くの潜在変数の組み合わせと見なす場合、ベイジアン推論はいくつかの形式の外挿を説明できます。たとえば、構文を表す 1 つの潜在変数とセマンティクスを表す別の変数を考えてみましょう。ベイジアン推論は、モデルが事前トレーニング中にすべての文のペアを見ていなくても、新しい意味と構文のペアに組み合わせて一般化できます。順列、スワップ、コピーなどの一般的な操作は、事前トレーニング中に役立ち、組み合わせると外挿に役立ちます (例: 動きから動物へのラベルの順列)。インコンテキスト学習が目に見えないタスクを処理する方法をモデル化するには、さらに作業が必要です。

8b22b277a3f0225fd30bb1b6adea60a3.png

GPT-3 が正常に学習できる特殊なセマンティクスを使用した合成タスクの例

タスクの説明を読む学習へのリンク

自然言語のタスクの説明 (または命令) をヒントに使用して、下流のタスクを実行できます。たとえば、「与えられた記事についての要約を書いてください」を追加して要約を説明したり、「ウィキペディアの記事について次の質問に答えてください」を追加して Q&A を説明したりできます。大規模で高品質の命令データでさらに調整された言語モデルは、目に見えないタスクでうまく機能することが示されています[6] [7]私たちのフレームワークによれば、「タスクの説明を指定する」ことは、潜在的な手がかりの明示的な概念を提供することによってベイジアン推論を改善することと理解できます。

インコンテキスト学習用の事前トレーニング済みデータを理解する

インコンテキスト学習は、トレーニング前データの長期的な一貫した構造から生じることを提案しますが (基本的な概念構造により)、トレーニング前データのどの要素がインコンテキストに最も貢献するかを正確に特定するには、より多くの作業が必要です。文脈学習。コンテキスト内学習が発生する可能性のあるデータの重要なサブセットはありますか?それとも、複数のタイプのデータ間の複雑な相互作用ですか? 最近の研究[8] [9]は、コンテキスト内の学習行動を誘発するために必要な事前トレーニング データのタイプに関するいくつかのヒントを提供します。インコンテキスト学習をよりよく理解することは、より効率的な大規模な事前トレーニング データセットの構築に役立ちます。

モデル アーキテクチャとトレーニングからの効果の取得

私たちのフレームワークは、コンテキスト内学習に対する事前トレーニング済みデータの効果のみを説明していますが、他の側面にも効果があります。モデルのサイズもその 1 つです。多くの論文で、大規模なスケールの利点が示されています[10] [11] [12]構造 (例: デコーダーのみ vs エンコーダー-デコーダー) とトレーニング目標 (例: 因果言語モデル vs マスクされた言語モデル) は、他の考えられる要因です [13 ]今後の作業では、モデルのサイズ、構造、およびトレーニングの目的の選択によって、コンテキスト学習におけるモデルの動作がどのように影響を受けるかをさらに調査する可能性があります。

V. まとめ

このブログ記事では、関連タスクを完了するための事前トレーニング中に学習した関連概念をヒントを使用して言語モデルがコンテキスト内学習を実行するフレームワークを提供します。理論的には、事前訓練されたデータの構造 (長期的な一貫性) を導出する能力である手がかりに条件付けられた潜在的な概念のベイジアン推論と考えることができます。いくつかの NLP ベンチマークで実験を行い、キューの出力がランダムな出力に置き換えられた場合でも、コンテキスト内学習が機能することを示しています。ランダムな出力を使用するとノイズが追加され、入出力マッピング情報が破壊されますが、他の部分 (入力分布、出力分布、形式) は引き続きベイジアン推論を通知します。最後に、目に見えないタスクへの外挿の説明、モデル アーキテクチャと最適化の影響の組み込みなど、フレームワークの制限と可能な拡張について詳しく説明します。私たちは、コンテキスト内学習の理解と改善に関する今後のさらなる取り組みを求めます。

参考文献

[1]ブラウン、トム他 「言語モデルは数ショット学習器です。」神経情報処理システムの進歩 33 (2020): 1877-1901.

[2]Xie、Sang Michael、他 「暗黙のベイジアン推論としてのインコンテキスト学習の説明。」arXiv プレプリント arXiv:2111.02080 (2021).

[3]ミン・セウォンほか 「デモンストレーションの役割を再考する: インコンテキスト学習を機能させるものは何ですか?」arXiv プレプリント arXiv:2202.12837 (2022).

[4]ラゼギ、ヤサマンほか 「少数ショット推論に対する事前訓練用語頻度の影響。」arXiv プレプリント arXiv:2202.07206 (2022).

[5]ロン、フリーダ。「gpt-3 のインコンテキスト学習による不自然な言語処理への外挿: 良い点、悪い点、神秘的な点」(2021)。

[6]魏、ジェイソン他 「微調整された言語モデルはゼロショット学習者です。」arXiv プレプリント arXiv:2109.01652 (2021).

[7]サン、ビクター他 「マルチタスクプロンプトトレーニングにより、ゼロショットタスクの一般化が可能になります。」arXiv プレプリント arXiv:2110.08207 (2021).

[8]チャン、ステファニーCY、他。「データ分布特性は、トランスフォーマーにおける緊急のインコンテキスト学習を推進します。」神経情報処理システムの進歩。2022年。

[9]シン・ソンジンほか 「大規模言語モデルによるインコンテキスト学習におけるコーパスの事前学習の効果について」arXiv プレプリント arXiv:2204.13509 (2022).

[10]カプラン、ジャレッド、他。「ニューラル言語モデルのスケーリング法則」arXiv プレプリント arXiv:2001.08361 (2020).

[11] レイ、ジャック W. 他 「言語モデルのスケーリング: ゴーファーのトレーニングからの方法、分析、および洞察」。arXiv プレプリント arXiv:2112.11446 (2021).

 [12]Chowdhery、Aakanksha、他。「Palm: パスウェイによる言語モデリングのスケーリング」。arXiv プレプリント arXiv:2204.02311 (2022).

[13]王、トーマス、他。「ゼロショット一般化に最適な言語モデル アーキテクチャと事前トレーニングの目的は?」機械学習に関する国際会議。PMLR、2022年。


NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

自然言語処理NLPの日々の質の高い論文の解釈、関連する生の情報、AIアルゴリズムの位置付けなどの最新情報を引き続き公開します。

惑星に参加すると、次のものが得られます。

1. 毎日3 ~ 5 個の最新かつ最高品質の用紙速度測定値を更新します数秒、論文の概要、一般的な内容、研究の方向性、pdf のダウンロードなど、論文の一般的な内容を把握できます。

2. 最新の入門および上級学習教材機械学習、深層学習、NLP などの分野を含みます。

3.  NLP 指示の特定の下位区分には、感情分析、関係抽出、ナレッジ グラフ、構文分析、意味分析、機械翻訳、人間とコンピューターの対話、テキスト生成、名前付きエンティティの認識、参照解決、大規模言語モデルが含まれますが、これらに限定されません、ゼロサンプル学習、スモールサンプル学習、コード生成、マルチモダリティ、知識蒸留、モデル圧縮、AIGC、PyTorch、TensorFlow など。

4.  NLP、サーチ、昇進・昇格、CVなどのAI職の1日1~3件の募集情報。模擬面接も可能です。

e3ab7fe03f28259b445913255445ccce.png

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/130097619