ACL2023 | 大規模モデルはどのようにして命令に従うデータセットを迅速に構築するのでしょうか? self-instruct: InstructGPT001の効果を追いつくためにシードデータを175個使用
5 人がこの記事を「いいね!」しました
I. 概要
タイトル:SELF-INSTRUCT:言語モデルと自己生成命令の調整
論文アドレス: https://arxiv.org/abs/2212.10560
コード: https://github.com/yizhongw/self-instruct
1 動機
- 命令データの構築には時間と労力がかかり、多くの場合、品質、多様性、創造性が制限されるため、命令を調整したモデルの開発が妨げられます。
- 背景: 命令調整手法とは、微調整された LLM モデルに大量の命令データ (人間の指示と応答の応答データ)を使用することを指します。これにより、モデルは人間の指示を理解でき、トレーニング後には非常に強力なゼロショットが得られます。新しいタスクの能力のために。
2つの方法
- 方法の概要: 本稿では、オリジナルの LM モデルがブートストラップ オフ法を通じて命令データを直接生成できるようにする自己命令フレームワークを提案します。フィルタリングとスクリーニングの後、大量の命令命令データ (多様性と効果が良好) を取得し、指示データの構築コストを大幅に削減できます。
- メソッドのステップの概要: 少量のシード データ + LM モデル自体 (調整されていないモデル) => 命令 (命令) を生成 + 入力 (命令に記載されている入力、空でも構いません) + 出力 (応答出力) => その後フィルターが無効です。同様のサンプル => データを追跡するための多くの命令を作成するための詳細な手順は次のとおりです。
2.1 命令データの定義
- 指示:指示
- X: 指示によれば、X は空である場合とそうでない場合があります。例: 入力 X は空です 指示: 学校の安全についてエッセイを書いてください、入力は空ではありません 指示: 次のトピックについてエッセイを書いてください
- Y: 回答。X または命令の理想的な応答に従ってのみ回答します。
2.2 命令データの自動生成
- 命令生成: 175 のシード データを使用して新しい命令を生成します。各ステップは 8 少数ショット戦略を採用し、そのうち 6 つは人間によって作成され、2 つはマシンによって生成されます。
- 分類タスクの識別: LM を使用して、少数ショットの例として 12 の分類タスクと 19 の非分類タスクを使用して、1 で生成された命令が分類タスクであるかどうかを予測します。
2.3 インスタンスの生成: インスタンス X と Y を生成するには 2 つの方法が使用されます。
- 入力優先アプローチでは、まず指示に従って入力フィールド X が提案され、次に対応する出力 Y が生成されます。ここで、タスクは入力 X、出力は出力 Y です。これはインコンテキスト学習によっても行われます。 、主に非分類を扱う のインスタンスが生成されます。
- 分類タスクの出力優先アプローチでは、最初に可能なクラス ラベルが生成され、次に対応する文が生成されます [これは、肯定的なサンプルと否定的なサンプルの比率を制御するために行われます]
2.3 フィルタリングと後処理
- 類似度が比較的高いものと、ROUGE-L が 0.7 未満の既存サンプルをフィルタリングします。
- LLM が通常処理できない画像、写真、グラフの単語をフィルターします。
- 指示は同じだが回答が異なるものをフィルタリングする
- フィルターが長すぎる、または短すぎる
2.4 微調整
- 複数のテンプレートを使用してトレーニング用の命令とインスタンスをエンコードし、さまざまな形式の堅牢性を向上させます。
1.3 結論
- 初代GPT-3モデルと比較すると確実に33%向上しており、InstructGPT001にほぼ追いつく効果を達成しています。公的指導データを使用しても、かなりの改善が見られます。
- 要約:
- 175 個のオリジナル シード データのみが使用され、オリジナルの GPT3 より 33 ポイント高い GPT3 インターフェイス微調整モデルが使用され、その効果は InstructGPT001 とあまり変わりません。
- 十分なトレーニング データがあれば、SUPERNI データ セットでトレーニングしました (これは研究領域のタスクに偏っており、人間の命令の分布は依然として人間の分布とは異なります。その後、実際の人間の命令の分布についても実験を行いました)。この論文で提案した方法を使用した自己指導には、まだ 2 つの改善点があります。
- Self-instruct は、元の LM (命令学習を受けていないモデル) が多数のラベルなしで人間の命令を理解できるように学習できるソリューションを提供します。これにより、命令データの生成とラベル付けのコストが大幅に削減されます。
- この記事では、その後の命令チューニングの研究を容易にするために、大規模な合成データ セットをリリースしました。
1.4 制限事項
- ロングテール効果は依然として比較的深刻です。自己命令は LM に依存してデータを生成し、LM の欠陥を継承し、頻度の高い単語に偏っています。この効果は、一般的な命令では良好である可能性がありますが、ロングテール サンプルではあまり効果的ではない可能性があります。
- 大規模モデルへの依存: 大規模モデルの誘導バイアスに依存すると、大規模モデルでのみより適切に機能する可能性があります。大規模モデルには比較的大きなリソース要件があるため、小規模モデルの使用も制限されます。
- LM のバイアスを強化する: 社会的バイアスを増幅する可能性があります。たとえば、モデルがよりバランスの取れたラベルを生成できない可能性があります。
2. 詳細
1 トレーニングに対するユーザーの実際のニーズに合わせた指示を作成し、自己指示が効果的かどうかを評価します
- 背景: SUPERNI データは研究タスクに偏っています。ここでは、ユーザーの実際のニーズに偏ったいくつかの命令が、自己命令の効果をテストするため、または InstructGPT シリーズと比較するためにブレインストーミングを通じて構築されています。
- 結論:効果は基本的に効果を示すInstructGPT001に近く、使用するシードデータは252個のみであり、命令構築コストも大幅に削減できます。
2 この記事の自己命令メソッドを使用して展開された命令が本当に役立つかどうかを評価する
方法:命令量と応答品質の2つの観点から実験を行い、このうち応答品質の比較はより良いモデルの応答を抽出した実験です。
- 実験 1: 拡張されたトレーニング データの大きさがパフォーマンスに及ぼす影響を評価する
- 方法:最初の175シードデータから徐々にデータ量を増やし、効果を評価します。
- 結論: トレーニング データは約 16K、効果は比較的平坦で、改善はそれほど大きくありません。
- 実験 2: 生成された応答の品質がパフォーマンスに及ぼす影響を評価する (より優れた応答はより優れたモデルから抽出される InstructGPT)
- 結論: 44.4% が 54.4% に改善されました。これは、応答品質が向上するとモデルが大幅に改善されることを示しています。
3 生成されるデータの大きさ
- 量 GPT3 のデータ量: 52k 命令データ、82k インスタンス。
4 生成されるデータの多様性
- 評価方法 1: 最も一般的な動詞の上位 20 を選択し、上位 4 位の直接名詞オブジェクトの分布を描画し、全体のデータ分布を測定します。
- 評価方法 2: シードデータに最も近いテキストの Rouge-L 分布を描画し、シードデータとの分布の差を測定します。
- 結論: 多様性は悪くないことがわかり、これが、生成されたデータによってモデルが従うべき一般的な指示を学習できる理由の 1 つです。
5 生成されるデータの品質
- 統計インジケータ: 200 個の命令がランダムに選択され、マークする命令ごとにインスタンスがランダムに選択されます。
- 指導効率: 92%
- 入力は指示と一致しています: 79%
- 出力は正しい (命令と入力の要件に十分に応答できる): 58%
- あらゆるシナリオで効果的: 54%
- 概要: 生成されたデータにはまだエラーが含まれていますが、ほとんどが正しく、モデルが人間の指示に従うことを学習するための有用なガイダンスとなります。
3. 個人的な概要
- これは、少量のシードデータ + オリジナルの事前学習モデルを検証することに相当します => 多様性のある大規模なバッチ + 品質の良い指示データを生成する実現可能性 => 利点は、指示に従うデータセット構築のコストを削減できることです大幅に減少しました。
- この記事では、大規模なモデルが人間の命令の混乱を理解できる理由を説明します。元の GPT-3 モデルは多くの知識を学習していますが、人間の命令に従う能力は非常に低いことがわかります。 - 質の高い指示データと回答があれば、モデルは指示を理解し始め、指示の具体的な意味を理解し、人間が期待する応答を返すことができます。中でも、コマンドの【多様性】と応答の【質】は非常に重要な要素です。
- 人間の価値観を調整する方法については、Fudan moss モデル [参考リソース 1] を参照してください。このモデルでは、人間にとって無害なシード データも多数構築され、そのモデルを使用して指示に従う大量のデータが生成されます。別の観点から見ると、犯罪者が暴力的傾向など人間の期待に沿わない答えを生成するようにモデルを誘導した場合、非常に有害なモデルをトレーニングする可能性があり、これも非常に恐ろしいことです。 Microsoft の記事で、オリジナルの gpt-3.5 シリーズはより強力な機能を備えている可能性があると述べられているのも不思議ではありません。これは、OpenAI がこの点で非常に強力な制約を設けていることを示しています。OpenAI が大規模モデルの規制を強く推奨しているのも不思議ではありません。
- GPT 共有の最近の OpenAI の状態 [参考リソース 2] では、元の次単語予測トレーニングの事前トレーニング LM は、同様の質問を構築するのは得意ですが、人間の指示に従って応答を生成するのは苦手であるとも述べています。 -トレーニング段階も一致 同時に、この記事では、類似の問題の構築が得意であるという特性を利用して、より常識に沿った、より多くの命令データを構築します。
4. 参考資料
- Fudanチームの大型モデルMOSSがオープンソース化されましたが、注目すべき技術的なハイライトは何でしょうか?- Sun Tianxiang の回答 - Fudan チームの大規模モデル MOSS がオープンソース化されていることを知っていますが、注目に値する技術的なハイライトは何ですか? - ほぼ知っています
- https://karpathy.ai/stateofgpt.pdf
皆さん、私の WeChat 公開アカウントに注目し、最新の紙面更新ニュースを常にチェックしてください。