大規模言語モデル (LLM) の 2 つの開発ルート: Finetune と Prompt

序文

この記事に興味があれば、「【訪問者必読ガイドページ】この記事にはホームページ上の質の高いブログがすべて含まれています」をクリックすると、完全なブログ分類と対応するリンクが表示されます。

大規模な言語モデルの研究において、研究者は 2 つの異なる期待を持っています。これは、具体的には 2 つの異なるルートとして理解することもできます。

  • 期待1:スペシャリストになって、ある種のタスクを解決する(翻訳、抄録取得)
  • 期待 2: ゼネラリストになるには、与えられた指示 (プロンプト) に従って、対応するタスクを完了することができます。
    • この方向の初期の研究では、すべての NLP タスクを質問応答タスクに変えることで、すべてのタスクを統合できると考えています。

以下では、これら 2 つの異なる期待について紹介します。


専門家の期待

スペシャリストには、単一のタスクでジェネラリストに勝つチャンスがあります。たとえば、次の論文では、ChatGPT はさまざまなタスクで良好なパフォーマンスを示しましたが (値が大きいほど優れています)、それでも専門家に勝つことはできませんでした。

ここに画像の説明を挿入
これは、「専門家」の使用に相当します。つまり、初期ドメイン モデルを微調整したり、構造に何らかの変更を加えたり、一部のパラメーターを微調整したりすることになります。

  • また、BERT のトレーニング プロセスとの整合性も高く、トレーニング プロセスは文の空白を埋めることであるため、トレーニングされたモデルは完全な文を生成できず、特定のシナリオに合わせて微調整が必​​要です。

ここに画像の説明を挿入
以下に示すように、4 つの BERT によってヘッドの構造が変更され、特定のタスクを実行できるようになります。

ここに画像の説明を挿入
そして、モデルのパラメーターを微調整 (Finetune) します。つまり、少量のデータでモデル パラメーターを調整することもできます。LLM のパラメーターを調整することも、新しく追加された構造のパラメーターのみを調整することもできます。

アダプター (効率的な微調整) は、大規模なモデルにいくつかのプラグインを追加することであり、下流タスクの微調整を行う場合は、アダプター上のパラメーターを調整するだけで済みます。
ここに画像の説明を挿入


ジェネラリストの期待

それは人間の「人工知能」の想像と一致しており、新しいタスクを開発するのに非常に便利であり、プロンプトを再設計する限り、新しい機能を迅速に開発でき、効率が大幅に向上します。

ゼネラリストの場合、次の 2 種類のタスクもあります。

  • [命令学習] トピックの説明を与え、機械に答えさせます。
  • [文脈に沿った学習] 例を挙げて、他の質問に機械に答えさせます。

状況に応じた学習

[中心的なタスク] いくつかの例を示し、同様の質問に機械に答えさせます。

ここに画像の説明を挿入

次の実験結果が示すように、マシンは例から学習しているようには見えません。

  • 青: 例なし (非常に悪い)
  • 黄色: 例が利用可能であり、正しくラベルが付けられています (最良)
  • 赤: サンプルがあり、サンプルはランダムにマークされています (最高のコントラスト、わずかに低下)

ここに画像の説明を挿入

ただし、これらの例のフィールドは次のように重要であるようです。

  • 紫色の列が複数あり、使用されている例はフォローアップの質問とは無関係で、マークはランダムです (パフォーマンスは低下し続けています)

ここに画像の説明を挿入

したがって、インコンテキスト学習では、モデルはサンプルで学習せず、サンプルの役割はモデルをアクティブにして、現在のタスクがどの分野に関するものであるかをモデルに伝えることであるため、サンプルの数は制限されないと推測されます。とても重要です。

ただし、追跡調査では新たな研究が行われており、次の実験結果が示すように、非常に大規模なモデルの場合、モデルはコンテキストの例から学習できると考えられています。

  • 色が濃いほどモデルが大きくなります
  • 横軸は誤ラベル率、縦軸はインデックス
  • 誤りのあるデータが多いほど、モデルのパフォーマンスへの影響が大きくなることがわかります。

ここに画像の説明を挿入

指導学習

Word ソリティアのトレーニングによって取得されたモデルは、問題の説明に従って対応するタスクに切り替えることができるように、命令チューニングを行う必要があります。

命令チューニングは次のようなことを行うことを想定しています。

ここに画像の説明を挿入
命令チューニングを行うには、次のようにさまざまなタスク (注釈を含む) を収集し、これらのタスクを命令に書き直す必要があります。

ここに画像の説明を挿入

思考の連鎖 (CoT)

その後、誰かがインコンテキスト学習を行うと、導出プロセスを考慮すると、大規模モデルのコンテキスト学習の能力が強化されることを発見しました。さらに、誰かがプロンプトに「ステップバイステップで考えましょう」を直接追加し、この単純な文も改善されましたモデルのパフォーマンス。

ここに画像の説明を挿入

思考連鎖を行うと、モデルによって生成される答えはより多様になるため、それに応じて自己整合性の手法も提案されます。つまり、複数回実行し、出現するすべての答えに投票し、出現する答えを出力します。よく。

迅速なエンジニアリング

モデルが自分でプロンプトを見つけられるようにする方法もあります。

  • 例を挙げて、マシンが自分でプロンプトを見つけられるようにします。

ここに画像の説明を挿入
完全な方法は、上記の例を示し、マシンにそれを見つけさせ、数回見つけさせ、各プロンプトにスコアを付け、最も高いスコアを持つプロンプトを保持し、同様のプロンプトを見つけられるように LLM に入力し続けることです。 、以下に示すように:

ここに画像の説明を挿入


参考文献

おすすめ

転載: blog.csdn.net/qq_41552508/article/details/130036116