[論文の精読] LLM の力を実際に活用する: ChatGPT 以降に関する調査

序文

大規模言語モデルのガイドです。このガイドは詳細であり、大規模モデルの開発に合わせて更新されます。大規模モデルを初めて使用する友人にとっても、必ず何かを得ることができると思います。


概要

この記事は、LLM の実践者またはその下流タスクのユーザー向けの包括的で実践的なガイドを提供します。まず、既存の LLM の紹介と概要を説明し、その後、事前トレーニング データ、トレーニング データ、テスト データの影響について議論し、最も重要なこととして、さまざまな NLP タスクにおける LLM の使用条件について議論し、その重要性を理解しようとします。データの概要とさまざまな NLP タスクの具体的な課題。定期的に更新されるガイドは、 https://github.com/Mooler0410/LLMsPracticalGuideでご覧いただけます

序章

LLM の急速な開発により、さまざまな NLP タスクで大きな可能性が示されていますが、これらのモデルを効率的に利用するには、その機能と制限、および関連するデータとタスクを具体的に理解する必要があります。特定のタスク シナリオでどの LLM を使用するかは、モデル サイズ、コンピューティング要件、特定のドメイン トレーニング モデルなどの要素を考慮する必要があります。
大規模な言語モデルの機能を分析するために、著者らはそれらを微調整されたモデルと比較します。2 つの定義は次のとおりです: LLM は大規模なデータセットで事前トレーニングされた巨大な言語モデルであり、特定のタスク用にデータを調整する必要はありません. 微調整モデルは通常規模が小さく、小規模なタスクで実行されます- 固有のデータセットそのタスクでのパフォーマンスを最適化するために微調整します。
この記事では、LLM に関する次の主要な実践ガイドラインを要約します。

  1. 自然言語理解: 非分散データまたは非常に少ないトレーニング データに直面した場合に、LLM の並外れた一般化能力を利用します。
  2. 自然言語生成: LLM を使用して、さまざまなアプリケーション向けに高品質のテキストを生成します。
  3. 知識集約型タスク: 特定の分野の知識または一般的な知識については、LLM によって保存された広範な知識を使用します。
  4. 推論スキル: LLM の推論スキルを理解し、使用して、問題を解決したり、意思決定を改善したりします。

モデル用実践ガイド

LLM モデルは、次の 2 つのカテゴリに分類できます。

  • エンコーダ/デコーダ モデルまたはエンコーダのみのモデル
  • デコーダ専用言語モデル

画像.png
上の図は言語モデルの進化プロセスを示しており、そこから次のような観察が導き出されます。

  1. デコーダのみのモデルが徐々に主流になり、エンコーダのみのモデルは徐々に衰退してきました。
  2. OpenAI は常に LLM 分野のリーダーであり続けます。
  3. Meta はオープンソース LLM に多大な貢献をしてきました。
  4. LLM は徐々に閉鎖的な傾向を示しており、API ベースの研究が主流になる可能性があります。
  5. エンコーダ/デコーダ モデルは依然として有望ですが、その柔軟性と汎用性には限界があります。

次の表は、LLM の概要です。
画像.png

BERT スタイルの言語モデル: エンコーダー-デコーダーまたはエンコーダーのみ

自然言語の教師なし学習は、自然言語がすぐに利用できることと、非常に大規模なデータセットを有効に活用できる教師なしトレーニング パラダイムによって動機づけられています。一般的な方法は、文中のマスクの単語を予測することです。このトレーニング パラダイムは MLM と呼ばれ、モデルが単語とコンテキストの関係をより深く理解できるようになります。代表的なモデルはBERT、RoBERTa、T5です。

GPT スタイルの言語モデル: デコーダーのみ

言語モデルは、スモールショットとゼロショットの両方のパフォーマンスを大幅に向上させます。最も成功したモデルは自己回帰言語モデルで、一連の単語が与えられた場合に次の単語を生成することによってトレーニングされます。これらのモデルは、テキスト生成や質問応答などの下流タスクで広く使用されています。代表的なモデルはGPT-3、OPT、PALM、BLOOMなどです。GPT-3 は、プロンプトとコンテキスト学習を使用して、数ショットのシナリオでパフォーマンスを実証した最初の製品です。

データの実践ガイド

モデルの有効性に対するデータの影響は、事前トレーニングからトレーニングと推論に至るまで始まります。
注意すべき点は次の 3 つです。

  1. 敵対的なサンプルやドメイン移行などの分布外データに直面した場合の LLM の汎化パフォーマンスは、微調整モデルのパフォーマンスよりも優れています。
  2. LLM は、限定された注釈付きデータを扱う場合、微調整されたモデルよりも優れたパフォーマンスを発揮します。
  3. 事前トレーニング モデルは、下流のタスクに近いモデルを選択するのが最善です。

事前トレーニングデータ

事前トレーニング データは、LLM の開発において重要な役割を果たします。事前トレーニング データの質、量、多様性はすべて、LLM のパフォーマンスに大きく影響します。事前トレーニングされたデータの重要性は、言語モデルに単語の知識、文法、構文、セマンティクスの豊富な理解を提供する能力と、コンテキストを認識して一貫した応答を生成する能力にあります。

データの微調整

ダウンストリーム タスクにモデルを使用する場合は、ゼロショット、スモールショット、ラージショットという 3 つの主なシナリオを考慮する必要があります。
**ゼロアノテーション付きデータ:**LLM の使用は、ゼロサンプルのシナリオに最も適した方法であることが証明されており、壊滅的な忘却を回避するためのパラメーター更新プロセスはありません。
**注釈の少ないデータ: **小さなサンプル データと入力プロンプトがコンテキスト学習として直接組み合わされるため、LLM を効率的にタスクに一般化することができます。この方法は、メタ学習や転移学習の小さなモデルよりもパフォーマンスが優れています。過学習の傾向があります。 。
**大量のラベル付きデータ:** このシナリオでは、モデルの微調整または LLM の使用は問題ありません。モデルを微調整すると、主にタスクの種類に基づいてデータをよりよく適合させることができます。
一般に、LLM は一般的なシナリオにより適しており、モデルの微調整には大規模なラベル付きデータが必要です。

テストデータ/ユーザーデータ

下流のタスクを処理するために LLM を導入する場合、ドメインの移行、配布範囲外の違い、さらには敵対的な例など、テスト データとトレーニング データの配布の違いによってもたらされる課題に直面することが多く、これらの課題はファイン サービスの有効性を妨げます。 -モデルを調整しますが、明示的なフィッティング プロセスがないため、LLM は適切にパフォーマンスを発揮します。さらに、ヒューマン フィードバックによる強化学習 (RLHF) 手法により、LLM の汎化能力が大幅に強化されます。

NLP タスクの実践ガイド

従来の NLU タスク

従来の NLU タスクには、テキスト分類、固有表現認識、含意予測などが含まれます。これらのタスクの多くは、大規模な人工知能システムの中間ステップです。
画像.png

使用例なし

ほとんどの自然言語理解タスクでは、タスクに豊富にラベル付けされたデータが含まれている場合、テスト セット データも同じ分布を維持し、微調整されたモデルのパフォーマンスは良好です。
テキスト分類タスクでは、LLM は微調整されたモデルよりも劣ることがよくあります。たとえば、毒性検出の場合、LLM はランダム選択よりわずかに優れたパフォーマンスしか示しません。これはおそらく、毒性が言語表現のニュアンスによって定義され、大規模なモデルが提供された入力のみに基づいて正確に理解できないという事実によるものです。
自然言語推論や知識の質問に答えるタスクでは、LLM と微調整モデルには独自の利点があります。
情報検索タスクでは、LLM は、数千の候補テキストを LLM に必要な少数/ゼロショット形式に変換できないため、広く使用されていません。
NER などの一部の小さなサンプルの中間タスクでは、CoNLL03 データセットでモデルを微調整するパフォーマンスは LLM のパフォーマンスの 2 倍ですが、LLM は上位レベルのタスクを直接処理できるため、これらの中間タスクは消滅する可能性があります。これらの中間タスク。
全体として、ほとんどの従来の NLU タスクでは、モデルを微調整する方が良い選択となります。LLM の規模は微調整モデルの 10 倍、さらには 100 倍ですが、一部のシーンのパフォーマンスは微調整モデルほど良くありません。LLM のパフォーマンスはプロンプトの設計に依存しますが、もちろん、スケールアップすることでギャップを埋めることができます。

使用事例

LLM に適した NLU タスクがまだいくつかあります。たとえば、その他のテキスト分類では、明確な関係がない可能性があるさまざまなトピックや分類が扱われます。NLI (ANLI) に対しても、LLM は良好なパフォーマンスを示しています。

生成タスク

自然言語生成タスクは、次の 2 つの大きなカテゴリに分類されます。

  1. 最初のカテゴリは、翻訳タスクや要約タスクなど、入力テキストを新しい記号シーケンスに変換することに重点を置いています。
  2. 2 番目のタイプのオープンエンド生成は、電子メールや記事の作成など、入力のテキスト一致記述をゼロから生成することを目的としています。

使用事例

生成モデルでは、モデルに入力コンテンツの包括的な理解と、ある程度の創造性が必要です。LLM の生成結果は、微調整されたモデルほど良くない可能性がありますが、連続性と相関性の点で優れたパフォーマンスを発揮します。
LLM は、リソースの少ない言語テキストを英語テキストに翻訳することに特に優れており、事前トレーニング データに多言語テキストを追加すると、翻訳能力がさらに向上することがわかりました。さらに、LLM は、オープンエンドで生成されたテキストという点ですでに実際のシーンと区別がつかず、コード修復にも適切に機能します。しかし、コード内の微妙なエラーをどのように見つけるかは、コード内の LLM にとって課題です。

使用例なし

リソースが豊富な機械翻訳では、微調整されたモデルのパフォーマンスが LLM よりわずかに優れています。リソースが非常に少ない翻訳タスクでは、微調整されたモデルは LLM よりも大幅に優れたパフォーマンスを発揮します。

知識集約的なタスク

知識集約型の NLP タスクとは、背景知識とドメイン固有の専門知識に大きく依存するタスクのクラスを指します。

使用事例

通常、LLM には数十億のトレーニング トークンとパラメーターがあり、微調整されたモデルよりも現実世界の知識が豊富です。したがって、実世界の知識に大きく依存する、クローズドブックの質問応答タスクや大規模なマルチタスクの言語理解タスクで優れたパフォーマンスを発揮します。

使用例なし

必要な知識が LLM によって学習された現実世界に関する知識ではない場合、機械による読解、シンボルを再定義するタスク、知識の検索を必要とするタスクなどのタスクにおいて、LLM には明らかな利点はありません。サイズが小さい 得られた知識を有効に活用でき、このタスクはオープンブックタスクとして理解できます。

スケーリングに関する機能

LLM の規模を拡大すると、事前トレーニングされた言語モデルの能力が大幅に強化され、モデルのパフォーマンスと規模にはべき乗則の関係があることがいくつかの指標で示されています。注意すべき点がいくつかあります。

  1. モデルのサイズが指数関数的に増加するため、LLM は算術推論や常識推論などの推論に特に優れています。
  2. ワードプロセッサや論理能力など、他の多くの能力がモデルから生まれます。
  3. 多くの場合、モデルのパフォーマンスは規模の拡大に伴って着実に向上しません。

根拠のあるユースケース

推論には情報の理解、推論と意思決定が含まれ、人間の知性の重要な側面です。既存の推論タスクは、常識推論と算術推論に分類できます。
算術推論: LLM の算術推論能力は、モデルのスケールから大きな恩恵を受けます。GPT-3 の場合、パラメーターの数が 13B を超えると、2 桁を追加できることが明らかになります。LLM は外部ツールの助けを借りずに計算を実行するときに時々間違いを犯しますが、思考連鎖 (COT) により LLM の計算能力を大幅に向上させることができます。
常識的推論: 常識的推論では、LLM が事実の知識を記憶するだけでなく、LLM が事実に対して多段階の推論を実行することも必要です。モデルのサイズが大きくなるにつれて、常識的な推論の能力が徐々に増加します。

緊急機能を備えたユースケース

大規模モデルは、創発機能と呼ばれる、前例のない機能をモデルに与えます。出現はしばしば予測不可能であり、結果は驚くべきものになります。リテラル演算を解くと、モデルに基づいて単語のスペルを逆にして元の単語を出力するなど、典型的な創発機能が発揮されます。

使用しないケースと理解

Redefine-math、Into the-unknown、Memo-trap などの一部のタスクでは、LLM のサイズが増加するにつれてパフォーマンスが低下し始めます。さらに、LLM には U 字型の現象もあります。つまり、モデルのパフォーマンスが最初に向上し、モデルが増加するにつれて低下します。このU字現象は、ある意味、小規模モデルと大規模モデルが異なる内部機構で予測していることを示しており、この観点から見ると、U字現象は、人間の創発的能力による逆変換によるものである可能性がある。モデル。この能力が出現した理由には次のような仮説があります。

  1. タスクには複数の重要なステップが含まれる場合があり、LLM は各ステップを処理できるほど大きくなるまで処理できません。
  2. 逆スケーリング現象の場合、モデルがプロンプトではなく事前情報に依存しすぎている可能性があり、これが単純な問題を複雑にしています。

その他のタスク

使用例なし

ターゲット データとトレーニング データの違いにより、LLM は、離散ラベルではなく連続値の予測を含む一部の回帰タスクなどの特定のタスクに苦労します。パフォーマンスが低い主な理由は、言語モデリングの目的と回帰タスクの目的の間の本質的な違いです。

使用事例

LLM は人間を模倣し、チャットボットとして機能し、さまざまなタスクを実行するのが非常に得意です。LLM は、優れたアノテーション ツールとしてもデータ ジェネレーターとしても機能します。LLM は、一部の NLG タスクの品質評価にも使用できます。さらに、COT などの LLM の一部の機能は、特定の解釈可能性をもたらす可能性があります。

現実世界の「タスク」

このモデルは、現実世界では次の 3 つの側面で課題に直面しています。

  • ノイズの多い/非構造化入力:現実世界の入力データには、タイプミス、口語表現、混合言語などが含まれる可能性があります。
  • タスクは学術界では正式に定義されていません。現実世界の一部のタスクは定義が不十分であり、同時に複数のタスクを実行する可能性があります。
  • ユーザーの指示に従う:モデルはユーザーの意図を理解し、その意図に一致する出力を提供する必要があります。

基本的に、現実世界におけるこれらの課題は、ユーザーのリクエストの分布が、特定のタスク用に設計されたデータセットとは異なるという事実から生じます。パブリック NLP データセットは、モデルの使用方法を反映しません。
このような現実世界のタスクを処理するには、曖昧さを解消し、コンテキストを理解し、ノイズの多い入力を処理する必要があります。ここでは、LLM は微調整されたモデルよりも優れた仕事をします。また、命令の微調整と手動によるアライメント調整の後、これらにより LLM の能力がさらに強化され、LLM がユーザーの命令をよりよく理解し、従うのに役立ちます。
実際のシナリオにおける大きな問題は、モデルのパフォーマンスをどのように評価するかということですが、正式なタスクや指標が存在しない場合、モデルの有効性はヒューマン アノテーターのフィードバックを通じてのみ得ることができます。

その他の考慮事項

LLM は多くの下流タスクに適していますが、効率や信頼性などの要素も考慮する必要があります。注意すべき点は次の 3 つです。

  1. コストを重視する場合、またはレイテンシに対する高い要件がある場合は、軽量の微調整モデルを検討してください。
  2. ゼロショット学習ではタスク固有のデータからショートカットを学習できませんが、LLM には依然としてこの問題があります。
  3. LLM に関連するセキュリティ問題は真剣に受け止める必要があり、LLM は有害な出力や偏った出力を出力する可能性があります。

効率

実際の導入では、パフォーマンス、コスト、遅延がすべて重要な考慮事項であり、効率と有効性の関係のバランスを取る必要があります。

料金

モデルの学習コストは非常に高く、GPT-3 175B の学習には 1 回の学習に 460 万ドルが必要で、さらに電気代やハードウェアのコストも非常に高くなります。ChatGPT の API を使用するには一定の料金を支払う必要があるため、ある程度のコストを払えない場合は、小規模なモデルの微調整を選択することをお勧めします。

レイテンシ

LLM を実際に適用する場合、遅延は考慮すべき重要な要素です。推論時間はレイテンシを測定するための一般的な指標であり、モデルのサイズ、アーキテクチャ、トークンの長さに大きく依存します。高い遅延が許容できないシナリオでは、大規模な LLM は適さない可能性があります。

パラメータ効率の高いチューニング

パラメーター効率の良い微調整 (PET) は、LLM のパラメーターの大部分を凍結し、モデル パラメーターのごく一部のみを調整または追加できる効果的な手法です。これにより、計算コストとストレージ コストを大幅に削減しながらモデルのパフォーマンスを維持できます。

信頼性

LLM は医療、金融、法律などの分野に関連しているため、信頼性の高い出力を確実に生成する必要があります。

堅牢性と校正

LLM の精度と堅牢性の間には強い相関関係があります。モデルが微調整されている場合、重大な誤調整が発生する可能性があり、モデルはゼロショット シナリオで過剰適合する傾向もあります。したがって、堅牢性と精度が重要な要素である場合、モデルを微調整することは最良の選択ではありません。人工的な位置合わせは、モデルの堅牢性を高めるための潜在的な解決策であることがわかりました。

公平性と偏見

LLM は、差別的な扱いと影響を示し、社会的偏見を永続させ、差別につながることが示されています。モデルを人間の指示に合わせて調整すると、LLM のパフォーマンスを向上させることができます。

偽りのバイアス

ショートカット学習の問題は、事前トレーニングおよび微調整パラダイムの下でさまざまな自然言語理解タスクに存在し、モデルは予測のために微調整データ内の入力とラベルの間の偽の相関に大きく依存します。LLM はコンテキスト学習プロセスでいくつかのショートカットを示し、LLM はトレーニング前のコーパスから一般的である回答を優先します。最近の研究では、適切なプロンプトを選択することで、この位置の偏りを軽減できることが示されています。

安全上の課題

幻覚

LLM は幻覚を見せたり、不条理に虚偽のコンテンツを生成したりする可能性があり、さまざまなアプリケーションの情報の品質と信頼性に重​​大な悪影響を及ぼします。これは、情報に依存するユーザーに誤った情報をもたらすことになり、それが医療、金融、その他のシナリオの場合、深刻な結果をもたらす可能性があります。したがって、RLHF は広く使用されています。

有害なコンテンツ

LLM によって生成されるテキストの連続性と可読性により、LLM からの有害なコンテンツはヘイトスピーチ、差別、暴力の扇動などの重大な害を引き起こす可能性があります。

プライバシー

LLM はユーザーのプライバシーを漏洩する可能性があります。

結論と今後の課題

LLM を効果的に使用するには、LLM の機能と、さまざまなアプリケーション シナリオにおけるタスクの制限を理解する必要があります。このペーパーでは、LLM がダウンストリーム タスクを処理するための実践的なガイダンスを提供します。最初に LLM のアーキテクチャについて説明し、次にさまざまなタスクへの LLM の適用可能性を調査し、最後に LLM の効率と信頼性を分析します。LLM の見通しは次のとおりです。

  • 実際のデータセットでモデルを評価します。
  • モデルの調整。ますます強力になるモデルが人間の価値観や利益と一致するようにします。
  • 安全なアライメント。モデルのセキュリティは、モデル構築プロセスに不可欠な部分です。
  • スケールアップ時のパフォーマンス予測。モデルのパフォーマンスに対するサイズの影響をシミュレートできます。

概要を読む

LLM の非常に包括的な入門書です。データ、タスク、パフォーマンス、効率の観点から、適用可能なシナリオと LLM の今後の開発について詳しく説明されています。大規模モデルの分野を理解したい友人に特に適しています。もちろん、大規模モデルの開発はまだ 1 年も経っていませんが、大規模モデルのアプリケーションはキノコのように湧き出ており、大規模モデルの学習方法も次から次へと登場しています。将来的には関連する実務家をさらに支援できると考えています。

おすすめ

転載: blog.csdn.net/HERODING23/article/details/130715152