最新 | Ask Me Anything プロンプト (プロンプト) 言語モデルの簡単な戦略 (スタンフォード大学 & ソース コード付き)

出典: AINLPer WeChat パブリック アカウント(毎日の乾物共有!!)
編集者: ShuYini
校正: ShuYini
時間: 2022-09-30

序章

プロンプト (Prompt) の小さな変更は、大規模な言語モデル (LLM) で大きなパフォーマンスの変化を引き起こし、プロンプト (prompt) の設計に多くの時間を費やします。この目的のために、この論文では、最初に複数の効果的で不完全なプロンプトを生成し、次にそれらを集約し、最終的に高品質のプロンプトを生成する ASK ME ANYTHING (AMA) メソッドを提案します。
ここに画像の説明を挿入

AINLPer公式アカウントをフォローすると、最新のドライグッズをいち早くお届けします

背景紹介

 大規模言語モデル (LLM) は、タスクに依存しない機械学習の目標に近づけます。新しいタスクのモデルをトレーニングする代わりに、LLM がすぐに使用できる新しいタスクに適用されます文脈学習パラダイムでは、LLM は自然言語のタスク仕様またはプロンプトによって制御されます。ここで、プロンプトは、タスクの入力と出力を記述および表すためのプレースホルダーを含むテンプレートによって定義されます。

 最近の研究では、さまざまなタスクにわたるプロンプトでの LLM のパフォーマンスが評価されており、実験では、プロンプトの小さな変化がパフォーマンスの大きな変化につながることがわかりました。また、選択したLLMシリーズや機種サイズによっても即効性は異なります。信頼性を向上させるために、完璧なプロンプト (プロンプト) を作成するために多くの作業が行われます。たとえば、一部の専門家は、タスクごとにプロンプ​​トを最適化するために、ユーザーが大きな検索スペースを手動で探索するための戦略を推奨しています。

 代わりに、このホワイト ペーパーでは、さまざまなモデルやタスクでプロンプトのパフォーマンスを向上させるために、複数の有効だが不完全なプロンプトの予測を集約することを検討していますタスク入力が与えられると、各プロンプトは入力のグラウンド トゥルース ラベルに投票し、これらの投票が集計されて最終的な予測が生成されます。

発生した問題

 集約された高品質のプロンプトを追求する中で、次の課題に直面しています。

高品質のプロンプト (効果的なプロンプト) : 高品質のプロンプトは、集計効果を向上させるための最初の条件です。2 つの SuperGLUE タスク (CB、RTE) では、ほぼランダムなパフォーマンスを生み出す生のキューを採用しています。同じ形式で複数のヒントを生成し、ヒント間で多数決予測を行うと、影響が少なく (CB で +4%)、平均ヒント パフォーマンスが低下することさえあります (RTE で -2%)。プロンプトを改善するための多くの提案は、単一のタスク タイプに焦点を当てており、単一のモデル ファミリおよび/またはサイズに基づいて評価されます。このためには、タスクとモデル全体で機能するヒント構造が必要です

スケーラブルなコレクション: 効果的なヒント形式を特定した後、これらの形式の複数のヒントを取得する必要があります。これらのヒントは主に、入力のグラウンド トゥルース ラベルに対する投票を収集するためのものです。タスクの元の形式は大きく異なり、以前の作業では入力例をタスク固有の方法で新しい形式に手動で書き直していたため、スケーリングが困難でした。タスク入力を再フォーマットするためのスケーラブルな戦略が必要です

プロンプト集計: 上記のプロンプト (CB と RTE の両方) を使用すると、精度が平均 9.5% 変化し、認識プロンプト エラーよりも 69% 高い Jaccard インデックス エラーが見られます。以前の研究では、多数決 (MV) が主な教師なし集計戦略でしたが、これら 2 つのプロパティが考慮されていないため、信頼性が低くなります。さまざまな精度と依存関係を説明するための戦略が必要です

AMAモデルメソッドの紹介

問題が解決しました

 1. タスク、モデル タイプ、およびモデル サイズ全体で効率を向上させるヒントのプロパティを特定します。以前の研究で分類のための標準的なプロンプト形式を調べたところ、モデルの出力を特定のトークンに制限するプロンプトよりも、自由回答をサポートするプロンプト (「John はどこへ行った?」) の方が効果的であることがわかりましたたとえば、3 つの SuperGLUE タスク (CB、RTE、WSC) を [Brown et al., 2020] の元の制限付き形式からオープン形式に変換すると、パフォーマンスが 72% 向上します。タスク入力が与えられると、入力から質問を形成し、LLM に質問に回答するように促す単純な構造は、かなり一般的なケースに適用でき、さまざまなベンチマーク タスクのパフォーマンスを向上させることができることがわかりました。

 2.タスク入力を (1) で見られる効率的なフォーマットにスケーラブルに再フォーマットするための戦略を提案しますタスク入力は、LLM 自体を固定の 2 ステップ パイプラインで再帰的に使用することにより、効率的な自由形式の質問応答形式に変換されます。最初に question() プロンプトを使用します。これには、ステートメントをさまざまな (yes-no、cloze などの) 質問に変換する方法のタスクに依存しない例が含まれています。短いまたは長い答え)。ヒントチェーンを適用 - answer(question(x)) ---- 入力x 2 x^2を指定バツ2最終予想です。チェーンは入力全体で再利用でき、さまざまな機能的キューのペアを組み合わせて多様性を生成できます。機能ヒントのさまざまなチェーンを入力に適用し、入力のグラウンド トゥルース ラベルに対して複数の投票を収集します。

 3.弱い監視 (WS) を使用して、予測を確実に集計しますさまざまなチェーンの予測によって生成されるエラーは、非常に変動しやすく、相関している可能性があることが実験的にわかりました。多数決 (MV) は、一部のヒント セットでは適切に機能する場合がありますが、上記の場合は適切に機能しません。AMA は、キュー間の依存関係を特定し、ラベル付けされたデータなしでノイズの多い予測をモデル化および結合するプロセスである WS を使用することによって、これらの状況を説明しますここで、この論文は初めて WS をヒントに広範囲に適用し、市販の LLM を使用して改善し、それ以上のトレーニングを必要としないことを示しています。

AMAモデル方式

 上記の問題解決方法を要約して、このホワイト ペーパーでは、ASK ME ANYTHING PROMPTING (AMA) を提案します。これは、オープンソース LLM のパラメーターを 30 分の 1 に削減するだけでなく、GPT3 の Few-Shot パフォーマンスを超える単純な方法です。 -175B.

 その中でも、上の図に示すように、AMA は最初に LLM を再帰的に使用してタスクとキューを効率的な形式に再フォーマットし、次に弱い監視を使用してキュー全体の予測を集計します。再フォーマットは、さまざまなタスク入力で動作する機能的な (固定された、再利用可能な) ヒントで構成される一連のヒントを使用して実行されます。ここで、入力例が与えられた場合、プロンプト チェーンは、LLM が入力ステートメントを質問に変換する question() プロンプトと、LLM が生成した質問に答える answer() プロンプトで構成されます。さまざまなヒントのチェーン (つまり、さまざまな文脈上の質問と回答のデモンストレーション) は、入力の真のラベルのさまざまな予測につながります。

実験結果

1. 以下の表 1 で、オープン ソース GPT-J-6B と Few-Shot (k∈[32…70]) GPT3-175B のベンチマーク テスト結果を比較します。20 のベンチマークのうち、15 のオープン ソース 6B パラメータ モデルが GPT3-175B モデルの平均 Few-Shot パフォーマンスを上回っていることがわかります。AMA は、6B パラメータ モデルの少数ショット (k = 3) のパフォーマンスよりも、20 のタスクで平均 41% 優れています。

2. モデル サイズ全体の分析とベンチマーク。少数ショット (k = 3) のパフォーマンスに対する AMA の絶対的な改善を報告します。これは、95% の信頼区間で 7 つのタスクを平均したものです (左)。7 つのタスクの平均 AMA ブーストで並べ替えます (右)。

3. Sanh らの実験結果 T0 のパフォーマンスを、プロンプト ソースの 10 の異なるプロンプト形式で多数決 (MV) および弱い監督 (WS) と比較。プロンプトソースを使用した場合、MV と WS の平均改善は、それぞれ 3.6 ポイントと 6.1 ポイントです。

推奨読書

[1] EMNLP 国際会議を理解するための 1 つの記事 && EMNLP ペーパー ダウンロード && EMNLP2022 を含む

[2] [長年にわたる NeurIPS 論文のダウンロード] この記事では、NeurIPS 国際会議 (NeurIPS2022 を含む) を理解することができます。

[3] [Microsoft Research && ソース コードを含む] ブラック ボックス モデルと比較して、解釈可能なモデルでも理想的なパフォーマンスを実現できます。

[4] [IJCAI2022&&Knowledge Graph] フェデレーション環境におけるメタ学習ベースの地図知識外挿 (アリ & 浙江大学 & ソースコードを含む)

[5] [NLP Paper Sharing && Language Representation] Transformer のグラフ リカレント ニューラル ネットワーク (GNN) を覆すことが期待される

[6] [NeurIPS && Graph Q&A] Knowledge Graph (KG) Cone Embedding Method for Mutil-Hop Reasoning (中国科学院 – ソースコードを含む)

[7] [NLP 論文共有 && QA 質疑応答] 動的連想 GNN は直接連想を確立し、マルチホップ推論を最適化します (ソース コードを含む)

[8] [長年にわたる IJCAI 論文のダウンロード && ペーパー エクスプレス] 蒸留、垂直結合、トレーニング前の微調整パラダイム グラフ ニューラル ネットワーク (GNN) に対するデータなし

[9] [NLP ペーパー共有 && 中国語固有表現認識] How to Build an Excel Gazetteer/Gazetteer (浙江大学 & ソース コードを含む)

おすすめ

転載: blog.csdn.net/yinizhilianlove/article/details/127215208