論文の読解 大規模言語モデルの調査 3

能力評価

LLM の有効性と優位性を検討するために、多数のタスクとベンチマークが実証的な評価と分析に使用されます。まず、LLM 言語の生成と理解のための 3 つの基本的な評価タスクを紹介し、次に、より複雑な設定または目的を伴う LLM の高度なタスクをいくつか紹介し、最後に既存のベンチマークと実証分析について説明します。

基本的なタスク

このパートでは、LLM の 3 つの評価タスク、つまり言語生成、知識利用、および複雑な推論に主に焦点を当てます。関連するすべてのタスクを完全にカバーするつもりはなく、LLM について最も広く議論または研究されているタスクのみに焦点を当てていることに注意してください。次に、これらのタスクについて詳しく説明します。
ここに画像の説明を挿入

言語の生成

既存の言語生成タスクは、タスク定義に応じて、言語モデリングタスク、条件付きテキスト生成タスク、コード合成タスクに大別できます。コード合成は典型的な NLP タスクではないことに注意してください。コード合成は、自然言語テキストと同様の生成アプローチで (コード データでトレーニングされた) ほとんどの LLM によって直接解決できるため、説明に含めます。

言語モデリングは、LLM の最も基本的な機能です。基本的な言語の理解と生成の能力に焦点を当て、前のトークンを予測することで次のトークンを予測します。一般的に使用される評価データセットには、Penn Treebank、WikiText-103、Pile などがあり、パープレキシティはゼロショットでのモデルのパフォーマンスを評価するためによく使用されます。経験的に、LLM はこれらの評価データセットに対して最先端の手法よりも優れたパフォーマンスを発揮します。テキスト内の長距離依存関係をモデル化する機能をより適切にテストするために、LAMBADA データセットが導入されています。このデータセットでは、LLM は文脈上のパッセージに基づいて文の最後の単語を予測する必要があり、モデルは予測精度と複雑さを使用して評価されます。

条件付きテキスト生成は言語生成における重要なトピックであり、与えられた条件に基づいて特定のタスクのニーズを満たすテキストを生成することに重点を置いています。パフォーマンスの評価には、一般的に使用される自動指標 (Accuracy、BLEU、ROUGE など) と人間によるスコアリングが使用されます。LLM は、その強力な言語生成機能により、既存のデータセットやベンチマークで驚くべきパフォーマンスを達成し、人間のパフォーマンスをも超えています。したがって、生成タスクの既存のベンチマークが LLM の機能を適切に評価し、反映できるかどうかについて懸念があります。この問題を考慮して、研究者は現在解決不可能なタスクを収集したり、より困難なタスク (超長文生成など) を作成したりすることで、新しい評価ベンチマーク (BIG ベンチ ハードなど) を策定しようとしています。さらに、最近の研究では、自動メトリクスが LLM の生成品質を過小評価している可能性があることも判明しました。したがって、人間の判断により一致した新しい指標を開発するには、さらなる努力が必要です。

既存の LLM は、高品質の自然言語を生成できることに加えて、形式言語、特にコード合成と呼ばれる特定の条件を満たすコンピューター プログラム (コード) を生成する強力な能力も実証しています自然言語生成とは異なり、生成されたコードは対応するコンパイラーまたはインタープリターによって直接チェックできるため、既存の研究では主に、テスト ケースの合格率 (つまり pass@k) を計算することによって、LLM によって生成されたコードのパフォーマンスを評価しています。最近、APPS、HumanEval、MBPP など、機能の正確さに焦点を当てたいくつかのコード ベンチマークが提案されています。この機能を向上させるには、コード データ上で LLM を微調整 (または事前トレーニング) することが重要です。これにより、LLM をコード合成タスクに効果的に適応させることができます。さらに、既存の研究では、複数の候補解のサンプリングやプランガイド付きデコードなど、コード生成のための新しい戦略が提案されており、エラー修正とコード計画のプ​​ロセスを模倣することでプログラマーと考えることができます。印象的なことに、LLM は最近、プログラミング コンペティション プラットフォーム Codeforces で人間と競合するパフォーマンスを達成し、上位 28% にランクされました。さらに、Visual Studio や JetBrains IDE などの IDE のコーディングを支援する GitHub Copilot がリリースされており、Python、JavaScript、Java などのさまざまな言語をサポートしています。ACM Communications に掲載された「プログラミングの終わり」というタイトルの展望記事では、AI プログラミングがコンピュータ サイエンスの分野に与える影響について論じており、重要な変化である新しい計算の原子単位としての適応性の高い LLM を強調しています。

LLM は人間のようなテキストを生成する点で優れたパフォーマンスを達成していますが、次の 2 つの主要な言語生成問題に対して脆弱です。まず、LLM の場合、条件を指定してテキストを生成する主流の方法は、自然言語の命令またはヒントを使用することです。このメカニズムは単純であるにもかかわらず、構造にきめの細かい制約や構造化された制約を課すテキスト生成の複雑な条件に対して、これらのモデルによって生成される出力を達成する際に大きな課題に直面しています。この問題に対処するために、考えられる解決策の 1 つは、ワンパス プロセスを LLM の反復プロンプトに拡張することです。その中心的なアイデアは、言語生成を計画、草案、書き直し、編集などの複数のステップに分解して、人間の執筆プロセスをシミュレートすることです。第 2 に、LLM は一貫したテキストを生成するための一般的な言語パターンを学習していますが、特殊なドメインやタスクを扱う場合には課題に直面する可能性があります。直感的には、モデルの専門化にはドメイン知識が不可欠であるはずです。ただし、このような専門知識を LLM に注入するのは簡単ではありません。したがって、元の機能を可能な限り維持しながら、LLM をさまざまなタスクシナリオに柔軟に適応できる効果的なモデル特殊化手法を開発する必要があります。

知識活用率

知識の利用は、裏付けとなる事実の証拠に基づいて知識集約型タスク (常識的な質問への応答や事実の補完など) を完了するインテリジェント システムの重要な能力です。具体的には、LLM には、事前トレーニングされたコーパス内の豊富な事実知識を適切に利用したり、必要に応じて外部データを取得したりできることが求められます。その中でも、質問応答 (QA) と知識補完 (知識補完) は、この能力を評価するためによく使用される 2 つのタスクです。テストタスク (質問応答または知識補完) と評価設定 (外部リソースの有無) に応じて、既存の知識活用タスクをクローズドブック QA、オープンブック QA、知識補完の 3 つのタイプに分類します。

クローズドブック QAクローズドブック QA タスクは、LLM が事前トレーニングされたコーパスから取得した事実の知識をテストします。LLM は、外部リソースを使用せずに、指定されたコンテキストに基づいて質問にのみ答える必要があります。この機能を評価するには、精度指標が広く採用されている Natural question、Web question、TriviaQA などのいくつかのデータセットを利用できます。経験的な結果は、LLM がこの設定で良好なパフォーマンスを発揮し、最先端のオープンドメイン QA システムのパフォーマンスにも匹敵することを示しています。さらに、クローズドブック QA タスクにおける LLM のパフォーマンスも、モデル サイズとデータ サイズの両方でスケーリング則パターンを示します。スケーリング パラメーターとトレーニング トークンにより、LLM の能力が向上し、事前トレーニングされたデータからより多くのことを学習 (または記憶) するのに役立ちます。データの知識。さらに、同様のパラメーター スケールの下では、評価タスクに関連する事前トレーニング データがより多くある LLM は、より優れたパフォーマンスを達成します。さらに、クローズドブック QA 設定は、LLM でエンコードされた事実の知識の正確さを調査するためのテストベッドも提供します。ただし、既存の研究で示されているように、LLM は、事前トレーニング データに粒度の高い知識が存在する場合でも、粒度の細かい知識に依存する QA タスクではパフォーマンスが低下する可能性があります。

ここに画像の説明を挿入

オープンブック QA は、オープンブック QA タスクでは、LLM が外部のナレッジ ベースまたはドキュメント コレクションから有用な証拠を抽出し、抽出された証拠に基づいて質問に答えることができるという点で、クローズドブック QA とは異なります。一般的なオープンブック QA データセット (Natural question、OpenBookQA、SQuAD など) はクローズドブック QA データセットと重複しますが、Wikipedia などの外部データ ソースが組み込まれています。精度と F1 スコアの指標は、オープンブック QA タスクの評価に広く使用されています。外部ソースから関連する知識を選択するために、LLM は多くの場合、テキスト検索エンジン (または検索エンジン) と組み合わせられ、LLM は独立してトレーニングされるか、LLM と共同でトレーニングされます。評価の観点から、既存の研究は主に、LLM が抽出された知識をどのように利用するかをテストすることに焦点を当ててきました。質問に答え、取得された証拠によって、生成される回答の精度が大幅に向上し、より小さな LLM が 10 倍大きな LLM よりも優れたパフォーマンスを発揮できることを示すための知識。さらに、オープンブック QA タスクでは、知識情報の適時性を評価することもできます。事前トレーニングや古い知識リソースからの検索は、時間制限のある質問に対する LLM の誤った回答につながる可能性があります。

知識の補完 知識の補完タスクでは、LLM は、知識単位 (知識のトライアドなど) の欠落部分を補完または予測するために利用できる知識ベースとして (ある程度) 見なすことができます。このようなタスクでは、LLM が事前トレーニング データからどれだけの量およびどのような種類の知識を学習したかを調べて評価できます。既存のナレッジ補完タスクは、ナレッジグラフ補完タスク (FB15k237 や WN18RR など) とファクト補完タスク (WikiFact など) に大別でき、それぞれナレッジ グラフの 3 要素と特定の事実に関する不完全な文章を補完することを目的としています。実証研究によると、既存の LLM では、ドメイン固有の知識補完タスクを完了することが困難です。WikiFact の評価結果に示されているように、LLM は、事前学習データに出現するいくつかの頻繁な関係 (通貨と作成者など) では良好なパフォーマンスを示しますが、まれな関係 (発見者または発明者と出生地など) では良好なパフォーマンスを示します。悪い。興味深いことに、InstructGPT (つまり、text-davinci-002) は、同じ評価設定 (たとえば、インコンテキスト学習) の下で、WikiFact のすべてのサブセットで GPT-3 よりも優れたパフォーマンスを示します。これは、指示の調整が LLM が知識補完タスクを達成するのに役立つことを示唆しています。

主な問題点 LLM は知識情報の取得と活用において大きな進歩を遂げてきましたが、次の 2 つの主な問題に悩まされています。

事実に基づくテキストを生成する場合の困難な問題は幻覚です。つまり、生成された情報が既存の情報源と矛盾するか (内因性幻覚)、または既存の情報源によって検証できない (外因性幻覚) という問題が 2 つの例とともに図 7 に示されています。幻覚は、GPT-4 などの最先端の LLM であっても、既存の LLM で頻繁に発生します。LLMS は、タスク解決に「無意識に」知識を活用しているようですが、依然として、固有知識または外部知識の使用を正確に制御する能力が不足しています。幻覚により、LLM が不正な出力を生成し、主にパフォーマンスが低下する可能性があり、実際のアプリケーションでは潜在的に危険となる可能性があります。この問題を軽減するために、既存の研究では、高品質のデータを解決したり、人間のフィードバックを使用して LLM を調整したりするアライメント調整戦略が開発されています。モデルの模倣の虚偽を検出するための TruthfulQA など、いくつかの幻覚検出タスクも提案されています。もう 1 つの大きなハードルは、LLM が最新の知識を必要とするタスクに苦労する可能性があることです。この問題に対する簡単な解決策は、LLM を新しいデータで定期的に更新することですが、これには非常にコストがかかり、壊滅的な忘却の問題が発生する可能性があります。したがって、新しい知識を既存の LLM に統合し、LLM を最新の状態に保つための効率的な方法を開発する必要があります。既存の研究では、LLM を外部知識ソース (検索エンジンなど) で補完する方法が検討されており、LLM と一緒に最適化することも、検索プログラムを使用して最新の情報ソースにアクセスする ChatGPT などのプラグ アンド プレイ モジュールとして使用することもできます。抽出された関連情報を文脈化することで、LLM は新しい事実の知識を獲得し、関連タスクのパフォーマンスを向上させることができます。ただし、このアプローチはまだ表面レベルにあるようで、固有の知識を直接変更したり、LLM に特定の知識を注入したりすることは未解決の研究問題のままです。

複雑な推論

複雑な推論とは、裏付けとなる証拠や論理を理解し、使用して、結論を導き出したり、意思決定をしたりする能力を指します。推論プロセスに含まれる論理と証拠の種類に応じて、既存の評価タスクを 3 つの主要なカテゴリ、すなわち知識推論、記号推論、数学的推論に分類します。

知識推論タスクは、与えられた質問に答えるために、事実の知識に関連する論理的関係と証拠に依存します。現在の研究では、主に特定のデータセットを使用して、さまざまな種類の知識の推論能力を評価しています。たとえば、CSQA/StrategyQA は常識的な知識の推論に使用され、ScienceQA は科学的知識の推論に使用されます。このタスクでは、LLM が答えが見つかるまで、事実の知識に基づいて段階的に推論を実行する必要があります。段階的な推論能力を引き出すために、LLM の複雑な推論能力を強化する CoT ヒント戦略が提案されています。このアプローチにより、LLM の推論パフォーマンスが大幅に向上し、複数の複雑な知識推論タスクで最先端の結果が得られます。ただし、知識推論タスクの複雑さにより、LLM のパフォーマンスは依然として人間の結果に遅れをとっています。最も一般的な間違いの 1 つは、LLM が間違った事実知識に基づいて不正確な中間ステップを生成し、最終的に間違った結果につながる可能性があることです。これらの問題に対処するために、既存の研究では、推論チェーン全体の精度を向上させるための特殊な解読または統合戦略が提案されています。最近の実証研究では、LLM は問題をうまく解決できるものの、特定のタスクに必要な常識的な知識を明示的に推論することが難しい可能性があることが示されています。さらに、自己生成した知識を活用しても推論パフォーマンスの向上には役立たないようです。

記号推論タスクは主に、いくつかの特定の目標を達成するために正式なルール設定で記号を操作することに焦点を当てており、操作やルールは LLM の事前トレーニングには決して登場しない可能性があります。既存の研究では通常、最後の文字の連結とコイン投げのタスクについて LLM を評価しています。これらのタスクでは、LLM がシンボリック操作の意味関係を理解し​​、複雑なコンテキストで操作を実行する必要があります。LLM は、特に「クロスドメイン テスト」では、より複雑なシンボリック操作が必要となるため、シンボリック操作の複合プロセスを理解する必要もあります。既存の研究では、スクラッチパッドとチューター戦略を使用して、LLM が記号操作をより適切に操作して、より長く複雑な推論プロセスを生成できるようにしています。一方、一部の研究では、記号操作やルールを表現するために正式なプログラミング言語を利用しており、LLM がコードを生成し、外部インタープリターを使用して推論プロセスを実行する必要があります。このアプローチでは、複雑な推論プロセスがコード合成と、LLM およびインタプリタによるプログラム実行に分解され、推論プロセスが簡略化され、より正確な結果が得られます。

主な問題点LLM の進歩にもかかわらず、複雑な推論タスクを解決するには依然としていくつかの制限があります。

  • 矛盾。CoT ヒントなどの推論戦略を改善することで、LLM は、サポートされるロジックと証拠に基づいた段階的な推論を通じて、いくつかの複雑な推論タスクを解決できます。これは機能しますが、因数分解推論中に矛盾が発生することがよくあります。具体的には、LLM は無効な推論パスに従って正しい答えを生成したり、正しい推論の後に誤った答えを生成したりする可能性があり、導出された答えと推論プロセスの間に不一致が生じる可能性があります。この問題を軽減するために、既存の研究では、外部ツールまたはモデルによって LLM の生成プロセス全体をガイドする方法、または推論プロセスと最終的な答えを再検討して修正する方法が提案されています。有望なソリューションとして、最近のアプローチは複雑な推論タスクをコード生成タスクに変換し、生成されたコードを厳密に実行することで推論プロセスと結果の一貫性を確保します。さらに、同様の入力を持つタスク間にも不一致が存在する可能性があり、タスクの説明の小さな変更によりモデルが異なる結果を生成する可能性があることがわかっています。この問題を軽減するために、複数の推論パスの組み合わせを適用して、LLM の復号プロセスを強化できます。
  • 数値計算。複雑な推論タスクの場合、LLM は、大きな数値の算術など、まれな記号を含む数値計算で依然として困難に直面しています。この問題に対する直接的なアプローチは、合成算術問題で LLM を調整することです。一連の研究はこのアプローチに従い、特別なトレーニングとスクラッチパッド トラッキングなどの推論戦略を通じて数値パフォーマンスをさらに向上させました。さらに、既存の作業には、特に算術演算を処理するための外部ツール (計算機など) も含まれています。最近では、ChatGPT が外部ツールを利用するためのプラグイン機構を提供しています。このように、LLM はツールを適切に操作する方法を学ぶ必要があります。この目的を達成するために、研究者はツール (または LLM 自体) を通じて LLM を適応させたり、現場で学習するためのガイドラインや例を考案したりしています。それでも、これらの LLM は依然としてテキストのコンテキストに依存して、数学的表記の意味論的な意味を (トレーニング前の段階で) 捉えますが、これは本質的に数値計算には適していません。

高度な能力評価

上記の基本的な評価タスクに加えて、LLM は評価中に特別な考慮を必要とするいくつかの優れた機能も示します。このセクションでは、人間の配置、外部環境との相互作用、ツールの操作など、いくつかの代表的な高度な能力とそれに対応する評価方法について説明します。次に、これらの高度な機能について詳しく説明します。

人間の遊び

LLM は人間の価値観やニーズと一致する必要があります。つまり、人間との一致を達成する必要があります。これは、LLM が現実世界のアプリケーションで広く使用されるための重要な機能です。既存の研究では、有用性、誠実さ、安全性など、人間による LLM の適合性を評価するために複数の基準が使用されています。有用性と誠実性を高めるために、敵対的質問応答タスクを使用して、虚偽である可能性が高いテキストを検出する LLM の能力をテストできます。さらに、CrowS-Pairs や Winogenender などの既存のベンチマークをセキュリティの評価に使用できます。上記のデータセットは自動的に評価できますが、人による評価を実行することは、LLM の人によるアライメントをテストするより直接的かつ効果的な方法です。人間のアライメントに関する他の問題に対処するために、いくつかの研究では、特定の指示を使用し、ラベル付けプロセスをガイドするラベル付けルールを定式化することが提案されています。実証研究は、これらの戦略が人間による LLM の調整能力を大幅に向上させることができることを示しています。たとえば、専門家と対話的にデータを収集することで、アライメント調整後に、機密性の高いキューや許容できないキューを扱う LLM の不正行為の割合を大幅に減らすことができます。さらに、高品質の事前トレーニング データにより、調整の作業負荷を軽減できます。

外部環境との相互作用

標準の評価タスクに加えて、LLM は外部環境からフィードバックを受け取り、エージェントを操作するための自然言語アクション プランの生成など、指示に基づいてアクションを実行することもできます。この機能は、詳細かつ非常に現実的なアクション プランを生成できる LLM にも現れていますが、GPT-2 などの小規模なモデルは短いプランや無意味なプランを生成する傾向があります。この機能をテストするには、VirtualHome、ALFRED、BEHAVIOR などのさまざまな身体ベースの AI ベンチマークを評価できます。既存の研究では、ベンチマークからの従来の指標 (生成されたアクション プランの実行可能性や正確性など) を採用するか、実際の実験を直接実施して成功率を測定してこの機能を評価しています。既存の研究では、外部環境と対話し、正確な行動計画を生成する際の LLM の有効性が示されています。最近、LLM の対話性を強化するために、コード スタイルのプロンプトを設計したり、現実世界の基礎を提供したりするなど、いくつかの改善されたアプローチが提案されています。

能力の範囲を拡大する

複雑な問題を解決する場合、LLM は外部ツールを使用できます。既存の作業には、検索エンジン、計算機、コンパイラなどのさまざまな外部ツールが含まれており、API 呼び出しを通じて利用可能なツールをカプセル化することで、特定のタスクにおける LLM のパフォーマンスを向上させてきました。最近、OpenAI は ChatGPT でのプラグインの使用をサポートしています。これにより、言語モデリングを超えた幅広い機能を LLM に装備できます。たとえば、Web ブラウザー プラグインを使用して、ChatGPT が最新の情報にアクセスできるようになります。ツールの操作能力を調べるために、既存の作業は主に、数学的問題解決やオープンブックの質問応答などの複雑な推論タスクで評価されます。この場合、数値計算など、LLM が実行できないスキルを向上させるには、ツールをうまく利用することが重要です。既存の研究では、ツールの助けを借りて、LLM が苦手な問題 (方程式の計算やリアルタイム情報の使用など) をより処理できるようになり、それによって最終的なパフォーマンスが向上することがわかっています。

要約すると、LLM の上記 3 つの能力は、人間の価値観や好みに適合する (人間の調整)、実際のシナリオで正しく実行する (外部環境と対話する)、および能力の範囲を拡張する (ツール操作) であり、すべて非常に価値があります。 LLM の実際のパフォーマンスに影響します。さらに、LLM は、特定のタスク (例: データ アノテーション) や学習メカニズム (例: 自己改善) に特に関連する他の機能を示す場合があり、これらの新たな機能を発見、測定、評価してより効果的に活用することは、オープンな方向性となるでしょう。 LLM を改善します。

公開ベンチマークと実証分析

前のセクションでは、LLM の評価タスクとそれに対応する設定について説明しました。次に、既存の LLM 評価ベンチマークと実証分析を紹介し、全体的な観点からより包括的な議論を探ることに焦点を当てます。

評価ベンチマーク

このセクションでは、MMLU、BIG ベンチ、HELM など、LLM を評価するために広く使用されている代表的なベンチマークをいくつか紹介します。これらのベンチマークには、言語学、数学、自然科学、社会科学などにわたる幅広いタスクと知識領域が、さまざまな難易度で含まれています。これらのベンチマークでは、LLM はモデルが大きいほどパフォーマンスが向上します。中でもGPT-4はMMLUの5発設定で驚異的な記録を達成しています。204 のタスクで構成される BIG-bench は、複数のドメインのタスクを含む包括的かつ包括的なベンチマークでもあります。同時に、ベンチマーク全体の高い評価コストを考慮して、24 の小さくて難しいタスクを含む軽量ベンチマーク BIG-bench-Lite もあります。BBH タスクでは、通常、LLM のパフォーマンスは人間よりも劣ります。HELM と呼ばれる包括的なベンチマークもあり、LLM の包括的かつ詳細な評価を提供し、LLM の精度、堅牢性、公平性を向上させるためのガイダンスを提供するとともに、推論タスクのためのコード コーパスを理解するために LLM を事前トレーニングすることには大きな利点があります。

LLM の機能の包括的な分析を実行する

上記のベンチマークは、LLM を評価するためのさまざまな主流タスクをカバーしています。それに加えて、多言語知識の利用のための TyDiQA や多言語数学的推論のための MGSM など、LLM の特定の機能の評価に焦点を当てたベンチマークがいくつかあります。評価目的では、特定の目的に応じて適切なベンチマークを選択できます。さらに、言語モデル評価ハーネスや OpenAI Evals など、研究者が既存のベンチマークや新しい評価タスクで評価できるオープンソースの評価フレームワークがいくつかあります。

大規模な評価ベンチマークの構築に加えて、LLM の利点と限界を調査するために包括的な分析を行う研究が増えています。このセクションでは、その主要な側面、つまり普及型機能 (一般的な機能) とエキスパート機能 (ドメイン固有の機能) について簡単に説明します。

普及能力の点では、その卓越したパフォーマンスにより、既存の研究では LLM の普及能力を体系的に評価し、さまざまなタスクやアプリケーションにおける LLM の能力を調査してきました。通常、これらの研究は、次のように、これまで十分に研究されていなかった新しく出現した LLM (ChatGPT や GPT-4 など) に焦点を当てています。

  • 習熟度。一般的なタスクを解決する際の LLM の習熟度を評価するために、既存の研究では通常、さまざまなタスクとドメインをカバーする一連のデータセットを収集し、少数/ゼロショット設定で LLM をテストします。経験的な結果は、一般的なタスク解決者としての LLM の優れた能力を示しています。GPT-4 は、言語理解、常識的推論、数学的推論などのさまざまなタスクにおいて、特定のテスト セットで訓練された最先端のメソッドを上回り、人間向けに設計された実践的なテストで人間と同等のパフォーマンスを達成できます。有望な結果にもかかわらず、LLM は依然として深刻な制限に悩まされています。さらに、計画を必要とするタスク (「ハノイの塔」問題の解決など) や概念の飛躍 (新しい科学仮説の提案など) ではパフォーマンスが低くなります。さらに、いくつかの研究では、LLM がなじみのない概念を誤解し、ドメイン固有の情報抽出タスクで課題に直面し、感情を伴う実際のタスク (パーソナライズされた感情認識など) を解決する際に、特定のモデルの微調整が不十分である場合よりもパフォーマンスが低い可能性があることも示しています。

  • 熟練度に加えて考慮すべきもう 1 つの側面は、ノイズや摂動に対する LLM の堅牢性です。これは実際のアプリケーションにとって特に重要です。ノイズや摂動に対するLLMの堅牢性を評価するために、既存の研究では、敵対的攻撃(トークン置換など)を採用して入力をテストし、出力結果の変化に従ってLLMの堅牢性を評価しています。研究によると、LLM はさまざまなタスクにおいて小規模な言語モデルよりも堅牢ですが、不安定な安定性やキューの感度など、堅牢性に関する新たな問題に遭遇する可能性があります。具体的には、LLM は、同じ入力の異なる表現を使用すると、異なる答えを提供する傾向があり、それ自体が生成するものと矛盾する場合さえあります。このような問題は、異なるヒントが使用された場合にロバスト性を評価する結果が不安定になる可能性もあり、ロバスト性解析の評価結果自体の信頼性が低くなります。

専門家LLM は大規模な混合ソース コーパスで事前トレーニングされているため、事前トレーニングされたデータから豊富な知識を取得できます。したがって、最近の研究では、ドメイン固有のタスクを解決し、LLM の適応性を評価する際の LLM の応用が広範囲に調査されています。通常、これらの研究ではドメイン固有のデータセットを収集または構築し、文脈学習を使用して LLM のパフォーマンスを評価します。私たちの焦点は、考えられるすべての応用分野をカバーすることではないため、研究コミュニティから幅広い注目を集めている 3 つの代表的な分野、つまり医療、教育、法律について簡単に説明します。

  • ヘルスケアは人間の生活に密接に関係する重要な応用分野です。ChatGPT の出現以来、ChatGPT やその他の LLM を医療分野に適用する一連の研究が行われています。LLM は、生体情報の抽出、医療相談、レポートの簡素化などのさまざまな医療タスクを処理でき、さらには専門の医師向けに調整された医師免許試験に合格することができることが示されています。ただし、LLM は、医学用語を誤解したり、医療ガイドラインと矛盾する推奨事項を提案したりするなど、医療上の誤った情報を作成する可能性があります。さらに、患者の健康情報をアップロードすると、プライバシーに関する懸念が生じます。

  • 教育も、LLM が大きな影響を与えることができる重要な応用分野です。既存の研究によると、LLM は数学、物理学、コンピューター サイエンスなどの科目の標準テストで、多肢選択問題か自由回答問題かにかかわらず、学生レベルの成績を達成できることがわかっています。さらに、実証研究では、LLM が教育においてライティングまたはリーディングのアシスタントとして機能できることが示されています。最近の研究では、ChatGPT が学際的な質問に対して論理的に一貫した回答を生成し、深さと幅のバランスをとっていることが示されています。別の定量分析では、コンピューター セキュリティの分野の一部のコースでは、ChatGPT を利用している学生が、別の方法 (LLM の結果を自分の答えとして保持したり改良したりするなど) を使用した通常の学生よりも優れた成績を収めたことが示されました。しかし、LLM の人気の高まりにより、そのようなインテリジェント アシスタントの合法的な使用 (宿題のカンニングなど) に対する懸念も生じています。

  • 法律は専門分野の知識を基礎とする専門分野です。最近、法的文書の分析、法的判決の予測、法的文書の作成など、さまざまな法的タスクを解決するために LLM を適用する研究が数多く行われています。最新の GPT-4 モデルは、人間の受験者と比較して、模擬司法試験でトップ 10 のスコアを達成しています。ただし、LLM を法律に適用すると、著作権問題、個人情報の開示、偏見や差別などの法的課題に関する懸念も生じます。

上記の作業に加えて、LLM の機能も他の側面から分析されます。たとえば、最近の研究では、自己認識、心の理論、感情の計算など、LLM の人間に似た特徴が研究されています。さらに、別の研究方向では、テスト セットからのデータを含む可能性のある大規模な混合ソースの事前トレーニング データなど、既存の LLM 評価設定の公平性と正確性を調査します。

結論と今後の方向性

このレビューでは、大規模言語モデル (LLM) の最近の進歩をレビューし、LLM を理解して活用するための重要な概念、発見、テクニックを紹介します。私たちは大規模なモデル (つまり、サイズが 10B を超えるモデル) に焦点を当てますが、広範囲に研究されている以前の事前トレーニング済み言語モデル (BERT および GPT-2) のコンテンツは除外します。特に、LLM の 4 つの重要な側面、つまり事前トレーニング、適応、利用、評価について説明します。それぞれの側面について、LLM の成功に重要な技術や発見を強調します。さらに、LLM の開発に利用可能なリソースを要約し、LLM を再現するための重要な実装ガイドラインについて説明します。このレビューは、LLM に関する最新の文献を網羅し、研究者やエンジニアに優れた参考リソースを提供することを目的としています。

このセクションでは、このレビューの議論を締めくくり、理論と原則を含む LLM の課題と将来の方向性を紹介します。LLM の基本的な動作メカニズムを理解する上での最大の謎の 1 つは、非常に大規模で深いニューラル ネットワークを通じて情報がどのように分散、編成、利用されるかということです。LLM の機能を構築する根拠や要素を明らかにする必要があります。特に、スケーリングは LLM の容量を増やす上で重要な役割を果たすようです。言語モデルのパラメーター スケールが臨界サイズ (例: 10B) に増加すると、多くの場合、コンテキストの学習、指示に従う、ステップバイステップの推論などの創発的な能力を含む、突然のパフォーマンスの向上が見られます。理解すること。最近の研究では、創発的能力の効果とそれを生み出す要因を実証するために大規模な実験が行われるか、特定の能力を説明するために既存の理論的枠組みが使用されています。技術記事では、GPT ファミリのモデルを対象として、このトピックについて具体的に取り上げています。ただし、LLM の機能や動作を理解し、特徴付け、説明するための、より正式な理論や原則がまだ不足しています。創発的能力は本質的に相転移と密接に関連しているため、学際的な理論または原則 (たとえば、LLM をある種の複雑なシステムと見なせるかどうか) は、LLM の動作を説明し理解するのに役立つ可能性があります。これらの基本的な疑問は研究コミュニティによって検討される価値があり、次世代の LLM を開発するために重要です。

モデル アーキテクチャスタックされたマルチヘッド セルフ アテンション レイヤーで構成されるトランスフォーマーは、そのスケーラビリティと有効性により、LLM を構築するための事実上の標準アーキテクチャになっています。このようなアーキテクチャのパフォーマンスを向上させるために、ニューラル ネットワーク構成やスケーラブルな並列トレーニングなど、さまざまな戦略が提案されています (詳細についてはセクション 4.2.2 の説明を参照)。モデルの機能 (マルチターン対話機能など) をさらに強化するために、既存の LLM は通常、長いコンテキスト長を維持します。たとえば、GPT-4-32k のコンテキスト長は非常に長く、32768 トークンに達します。したがって、実際的な考慮事項は、標準的なセルフアテンション メカニズムによって生じる時間の複雑さ (以前は 2 次コスト) を削減することです。より効率的な Transformer バリアントが LLM の構築に及ぼす影響を調査することが重要です。たとえば、GPT-3 ではスパースセルフアテンションが使用されています。さらに、壊滅的な忘却はニューラル ネットワークにとって長年の課題であり、LLM にも悪影響を与える可能性があります。新しいデータを使用して LLM を微調整する場合、元の学習知識が損なわれる可能性があります。たとえば、特定のタスクに関して LLM を微調整すると、LLM の一般的な能力に影響します。これは、LLM が人間の価値観と一致する場合にも発生します (調整税と呼ばれます)。したがって、データ更新とタスクの専門化を効果的にサポートするには、より柔軟なメカニズムまたはモジュールを通じて既存のアーキテクチャを拡張することを検討する必要があります。

モデルのトレーニング実際には、大量の計算量とデータの品質とトレーニング スキルの影響を受けやすいため、効果的な LLM を事前トレーニングすることは非常に困難です。したがって、モデルの有効性、効率の最適化、トレーニングの安定性などの要素を考慮して、より体系的かつ経済的な事前トレーニング方法を開発することが特に重要です。トレーニング中の早期に異常を検出するには、より多くのモデル チェックまたはパフォーマンス診断方法 (GPT-4 の予測スケーリングなど) を開発する必要があります。さらに、コンピューティング クラスター内のリソースをより適切に編成して利用するには、より柔軟なハードウェア サポートまたはリソース スケジューリング メカニズムが必要です。LLM を最初から事前トレーニングするのは非常にコストがかかるため、LLaMA や Flan-T5 などの公開されているモデル チェックポイントに基づいて LLM を継続的に事前トレーニングまたは微調整するための適切なメカニズムを設計する必要があります。そのためには、データの不整合、壊滅的な忘れ、タスクの特殊化など、さまざまな技術的問題に対処する必要があります。ただし、再現性を高めるための完全な前処理とトレーニング ログ (事前トレーニングされたデータを準備するスクリプトなど) を備えた LLM のオープン ソース モデルのチェックポイントは、現時点ではまだ不足しています。私たちは、より多くのオープンソース モデルが存在することは、LLM の研究にとって大きな価値があると信じています。さらに、より改良された調整戦略を開発し、モデルの機能を効果的に刺激するメカニズムを調査する必要があります。

モデルの利用実際のアプリケーションでは微調整は非常にコストがかかるため、ヒンティングが LLM を使用する主な方法となっています。タスクの説明とデモンストレーションの例をキューに組み合わせることで、コンテキスト学習 (特殊な形式のキュー) により、LLM は新しいタスクで優れたパフォーマンスを発揮できるようになり、場合によっては完全にデータが微調整されたモデルを上回る能力が得られます。複雑な推論の能力を向上させるために、ヒントに中間推論ステップを含む思考連鎖 (CoT) 戦略に代表される高度なヒンティング技術が提案されています。しかし、既存のプロンプト方法には依然として次のような欠点があります。まず、キューの設計にはかなりの手作業が必要です。さまざまな課題を解決するための有効なヒントを自動的に生成できれば非常に便利です。第 2 に、一部の複雑なタスク (形式的な証明や数値計算など) には特定の知識や論理ルールが必要ですが、これらは自然言語で説明したり、例で説明したりするのが適切ではない可能性があります。したがって、プロンプト用にタスクをフォーマットする、より有益で柔軟な方法を開発することが重要です。第三に、既存のキューイング戦略は主に単一ラウンドのパフォーマンスに焦点を当てています。ChatGPT によって実証されているように、複雑なタスクを解決するための対話型プロンプト メカニズム (自然言語対話などによる) を開発することは非常に役立ちます。

安全性と調整LLM は、その優れた機能にもかかわらず、小規模な言語モデルと同様の安全性の課題に悩まされています。たとえば、LLM は幻覚テキスト、つまりもっともらしいように見えても事実が間違っている可能性のあるテキストを生成します。さらに悪いことに、悪意のあるシステムは、LLM に有害な、偏った、または有毒なテキストを生成するよう意図的に指示し、潜在的な悪用リスクにつながる可能性があります。LLM のその他のセキュリティ上の懸念事項 (プライバシー、過剰依存、偽情報、業務への影響など) の詳細については、GPT-3/4 技術レポートを参照してください。これらの問題を回避する主な方法として、人間のフィードバックからの強化学習 (RLHF) が広く使用されており、人間をトレーニング ループに組み込んで適切に調整された LLM を開発しています。モデルのセキュリティを向上させるには、GPT-4 に示されているように、RLHF 中にセキュリティ関連のヒントを含めることも重要です。ただし、RLHF はプロのアノテーターからの人間による高品質なフィードバック データに大きく依存しているため、実際に適切に実装することが困難です。したがって、アノテーターの作業負荷を軽減し、データ品質を確保するためにより効率的なアノテーション方法を見つけるために RLHF フレームワークを改善する必要があります。たとえば、LLM を使用してラベル付けを支援できます。最近、LLM のモデル セキュリティを向上させるためにレッド チーム テストが採用され、収集された敵対情報を利用して LLM を改良しています (つまり、レッド チーム テストからの攻撃を回避します)。また、LLM が人間とコミュニケーションするための学習メカニズムを構築することには意味があり、チャットを通じて得られるフィードバックは、LLM の自己改善に直接活用できます。

アプリケーションとエコシステムLLM は、さまざまなタスクを解決する強力な機能を実証するため、さまざまな現実世界のアプリケーション (例: 特定の自然言語命令に従う) で使用できます。ChatGPT のリリースは、人々が情報を入手する方法を変え、新しい Bing のリリースを容易にした可能性のある大きな進歩です。LLM は、近い将来、検索エンジンやレコメンダー システムなどの情報検索技術において重要な役割を果たすことが予想されます。さらに、LLMs テクノロジーのアップグレードにより、インテリジェント情報アシスタントの開発と使用も大幅に促進されるでしょう。より広いスケールで見ると、この技術革新の波は、人間の生活に密接に関係する LLM 対応アプリケーション (ChatGPT のプラグイン サポートなど) のエコシステムの構築に役立ちます。最後に、LLM の台頭により、人工知能 (AGI) の汎用性が探求されています。これまでよりも賢いインテリジェント システム (おそらくマルチモーダル信号を使用) を開発することが可能になりましたが、この開発プロセスでは AI の安全性が主な関心事となるべきです。つまり、人工知能が利益をもたらすことよりも利益をもたらすことです。脅威。

このレポートは、大規模言語モデルにおける最近の進歩をチームメンバーにとって読みやすい方法で要約するために、研究チームのディスカッションセッション中に計画されました。最初の草案バージョンは 2023 年 3 月 13 日に完成し、チーム メンバーは LLM に関連する研究を比較的客観的かつ包括的な方法で含めるように最善を尽くしました。その後、何度か大規模な執筆と内容の改訂を行いました。ただし、この調査はまだ完璧には程遠いです。重要な参考文献やテーマを見逃している可能性があり、プレゼンテーションやディスカッションの厳密さが不十分である可能性があります。可能な限り品質を向上させるために、この調査は引き続き更新していきます。私たちにとって、LLM の調査執筆を学ぶことは学習プロセスでもあります。建設的なコメントのある読者は、アンケートの GitHub ページにコメントを残すか、著者に直接電子メールを送信してください。受け取ったコメントや提案に基づいて、将来の版で対応する改訂を行う予定です。アンケートで建設的な提案を提供してくれた読者に感謝します。

おすすめ

転載: blog.csdn.net/u010095372/article/details/129989345