大規模言語モデル (LLM) 評価のレビュー

  • 写真

論文アドレス:https://arxiv.org/abs/2307.03109

Github アドレス: https://github.com/MLGroupJLU/LLM-eval-survey

1. 背景

        ChatGPT と GPT-4 の導入により、大規模言語モデル (LLM) は、主にさまざまなアプリケーションにおける比類のないパフォーマンスにより、学術界と産業界の両方で人気が高まっていますLLM が研究や日常の使用において重要な役割を果たし続けるにつれて、その評価の重要性がますます高まっています。ここ数年、以下の図 2 に示すように、人々はさまざまな観点 (自然言語タスク、推論、堅牢性、信頼性、医療への応用、倫理的考慮など) からLLM について多くの研究を行ってきました。

写真

      多くの努力にもかかわらず、評価範囲全体の包括的な概要はまだ不足しています。さらに、LLM の継続的な進化は評価に新たな側面をもたらし、それによって既存の評価プロトコルに挑戦し、徹底的で多面的な評価手法の必要性が強化されています。(Bubeck et al., 2023) などの既存の研究では、GPT-4 が AGI の火種であると考えられると主張していますが、その評価方法の人為的な性質を理由にこれを疑問視する研究もあります。

        このペーパーでは、何を評価するか、どこを評価するか、どのように評価するかという 3 つの主要な側面に焦点を当てて、これらの LLM 評価方法を包括的にレビューしますまず、一般的な自然言語処理タスク、推論、医療応用、倫理、教育、自然科学および社会科学、エージェント アプリケーション、その他の領域を含む評価タスクの観点から概要を説明します。2 番目に、LLM のパフォーマンスを評価する際の重要な要素である評価方法とベンチマークを掘り下げることによって、「どこで」と「どのように」という問題が評価されます。次に、さまざまなタスクにおける LLM の成功例と失敗例をまとめます。最後に、LLM 評価の将来の課題について説明します。

写真

写真

2. 大規模言語モデルの基礎知識

        言語モデル (LM) は、人間の言語を理解して生成する機能を備えた計算モデルです。LM には、単語シーケンスの可能性を予測したり、入力が与えられたときに新しいテキストを生成したりする変換能力があります。N グラム モデルは、直前のコンテキストに基づいて単語の確率を推定する、最も一般的なタイプの LM です。ただし、LM は、まれな単語や見たことのない単語の問題、過剰適合の問題、複雑な言語現象を捉えることの難しさなどの課題にも直面しています。従来の LM のパラメータは小さく、GPT-3 以降のモデルは、GPT-3、InstructGPT、GPT-4 など、10B を超えるパラメータを持つモデルが出現していることを証明しています (いくつかの論文では Prompt の設計上の問題である可能性があることが証明されていますが、モデルの汎化能力は確かに以前のモデルよりはるかに強力です)。そのコア モジュールは、言語モデリング タスクの基本的な構成要素である Transformer のセルフアテンション モジュールです。トランスフォーマーは、連続データを RNN や CNN よりも効率的に処理し、並列化を可能にし、テキスト内の長距離依存関係をキャプチャすることにより、NLP の分野に革命をもたらしました。

       LLM の重要な機能はコンテキストベースの学習であり、与えられたコンテキストまたはキューに基づいてテキストを生成するようにモデルがトレーニングされます。これにより、LLM はより一貫性のあるコンテキスト依存の応答を生成できるようになり、インタラクティブな対話アプリケーションに適したものになります。ヒューマン フィードバックからの強化学習 (RLHF) は、LLM のもう 1 つの重要な側面です。これは、人間が生成したフィードバックを報酬として使用してモデルを微調整する技術であり、モデルが間違いから学習して、時間の経過とともにパフォーマンスを向上させることができます。

       GPT-3 や PaLM などの自己回帰言語モデルでは、コンテキスト シーケンス X が与えられると、LM タスクは次のトークン y を予測することを目的とします。モデルは、コンテキストに基づいて条件付けされたトークン シーケンスの確率、つまり P(y|X) = P(y|x1, x2, ..., xt−1) を最大化することによってトレーニングされます。ここで、x1、x2、…、xt−1 はコンテキスト シーケンス内のトークン、t は現在の位置です。チェーン ルールを使用すると、条件付き確率を、前のコンテキストを考慮した各トークンの条件付き確率の積に分解できます。つまり、次のようになります。

写真

      ここで、T はシーケンスの長さです。このようにして、モデルは各位置の各トークンを自己回帰的に予測し、完全なテキスト シーケンスを生成します。LLM と対話するための一般的なアプローチはプロンプト エンジニアリングです。プロンプト エンジニアリングでは、ユーザーが特定のプロンプト テキストを設計して提供し、LLM が目的の応答を生成したり、特定のタスクを完了したりできるようにガイドします。これは既存の評価作業で広く採用されています。ユーザーは、モデルに質問して回答を得る質問と回答の対話に参加したり、LLM と自然言語で会話する対話対話に参加したりすることもできます。

       全体として、LLM は、Transformer アーキテクチャ、コンテキストベースの学習、および RLHF 機能によって NLP に革命をもたらし、さまざまなアプリケーションで有望です。表 1 は、従来の機械学習、深層学習、LLM の簡単な比較を示しています。

写真

3. 何を評価するか

       どのタスクについて LLM のパフォーマンスを評価する必要がありますか? このセクションでは、既存のタスクを次のカテゴリに分類します: 自然言語処理タスク、倫理と偏見、医療アプリケーション、社会科学、自然科学および工学タスク、エージェント アプリケーション (LLM をエージェントとして使用) など。

3.1 自然言語処理タスク 

       大規模言語モデルの本来の目的は、自然言語の理解、推論、生成、多言語タスク、自然言語の信頼性などの自然言語処理タスクのパフォーマンスを向上させることでした。したがって、ほとんどの評価研究は主に自然言語タスクに焦点を当てています。評価結果を以下の表2に示す。

写真

3.2 堅牢性、倫理、偏見、信頼性

       LLM の評価には、堅牢性、倫理、偏見、信頼性などの重要な側面が含まれます。これらの要素は、LLM のパフォーマンスを総合的に評価する際にますます重要になっています。

写真

3.3 社会科学

       社会科学には、経済学、社会学、政治学、法律、その他の分野を含む、人間社会と個人の行動の研究が含まれます。社会科学における LLM のパフォーマンスを評価することは、学術研究、政策策定、社会問題解決にとって重要です。このような評価は、社会科学におけるモデルの適用性と品質を向上させ、人間社会への理解を深め、社会の進歩に貢献するのに役立ちます。

3.4 自然科学と工学 

       自然科学および工学における LLM のパフォーマンスを評価することは、科学研究、技術開発、および工学研究の応用と開発を導くのに役立ちます。

写真

3.5 医療への応用 

       最近、医療分野における LLM の応用が大きな注目を集めています。このセクションでは、LLM を医療アプリケーションに適用するための既存の研究をレビューします。具体的には、表 5 に示すように、医療質問応答、健康診断、医学評価、医学教育の 4 つの側面に分類されます。

写真

3.6 プロキシアプリケーション 

       LLM は一般的な言語タスクに焦点を当てているだけでなく、さまざまなドメインで強力なツールとして活用できます。LLM に外部ツールを装備すると、モデルの機能を大幅に拡張できます。KOSMOS-1 のように、一般的なパターンを理解し、学習の指示に従い、コンテキストに基づいて学習することができます。Karpas らは、これらの外部シンボリック ツールをいつどのように使用するかを知ることが重要であり、特にこれらのツールが確実に動作する場合、この知識は LLM の機能によって決定されることを強調しています。さらに、Toolformer と TALM という他の 2 つの研究では、ツールを使用して言語モデルを拡張する可能性を調査しています。Toolformer はトレーニング アプローチを採用して、特定の API の最適な使用法を決定し、得られた結果を後続のトークン予測に統合します。一方、TALM は、区別できないツールとテキストベースのアプローチを組み合わせて言語モデルを強化し、最小限のツールのデモンストレーションによってガイドされる「セルフプレイ」と呼ばれる反復手法を採用します。Shen らは、AI タスクの解決を目的として、LLM を利用して機械学習コミュニティ内のさまざまな AI モデル (Hugging Face など) を接続する HuggingGPT フレームワークを提案しました。

写真

3.7 その他のアプリケーション 

       上記の分類に加えて、LLM は、教育、検索と推奨、性格テスト、特定のアプリケーションなど、他のさまざまな領域でも評価されました。

4. 評価する場所: データセットとベンチマーク 

       LLM をテストするための評価データセットは、セクション 3 で示すように、さまざまなタスクでさまざまな言語モデルのパフォーマンスをテストおよび比較するために使用されます。GLUE や SuperGLUE などのこれらのデータセットは、現実世界の言語処理シナリオをシミュレートすることを目的としており、テキスト分類、機械翻訳、読解、対話生成などのさまざまなタスクをカバーします。このセクションでは、言語モデルの単一のデータセットについては説明しませんが、LLM のベンチマークについて説明します。LLM のベンチマークは進化しているため、表 7.5 に 19 の人気のあるベンチマークを示します。各ベンチマークはさまざまな側面と評価基準に焦点を当てており、それぞれの分野に貴重な貢献を提供します。よりわかりやすく要約するために、これらのベンチマークを 2 つのカテゴリに分類します。一般的な言語タスクのベンチマークと、特定の下流タスクのベンチマークです。

写真

5. 評価方法 

       このセクションでは、自動評価と人間による評価という 2 つの一般的な評価方法を紹介します。実は「どう評価するか」という分類も定かではありません。当社の分類は、評価基準が自動計算できるかどうかに基づいています。自動的に計算できる場合は自動評価として分類し、そうでない場合は人間による評価とします。

5.1 自動評価 

       大規模な言語モデルの自動評価は一般的であり、おそらく最も一般的な評価方法であり、通常は標準のメトリクスまたはインジケーターと評価ツールを使用して、精度、BLEU、ROUGE、BERTScore などのモデルのパフォーマンスを評価します。たとえば、BLEU スコアを使用して、機械翻訳タスクにおける参照テキストに対するモデル生成テキストの類似性と品質を定量化できます。実際、既存の評価の取り組みのほとんどは、その主観性、自動計算、簡単さのため、この評価プロトコルを採用しています。したがって、自然言語理解や数学的問題などのほとんどの決定論的タスクでは、通常、この評価プロトコルが採用されます。手動評価と比較して、自動評価では人間の参加が不要なため、評価コストが節約され、時間がかかりません。たとえば、Bang et al. は両方とも自動評価方法を使用して、多数のタスクを評価しています。最近では、LLM の発展に伴い、評価を支援するためにいくつかの高度な自動評価技術も設計されています。Lin と Chen は、LLM とのオープンドメイン対話のための統合多次元自動評価手法である LLM-EVAL を提案しました。PandaLM は、さまざまなモデルを評価するために使用される「審判」として LLM をトレーニングすることにより、再現可能な自動言語モデル評価を可能にします。自動評価用紙は多数あるため、ここでは詳しく説明しません。自動評価の原理は、実際には他の AI モデル評価プロセスと同じです。いくつかの標準的なメトリクスを使用して、モデルのパフォーマンスの指標として機能するこれらのメトリクスに基づいていくつかの値を計算するだけです。

5.2 人間による評価 

      LLM の機能は、一般的な自然言語タスクに関する標準の評価指標を上回っています。したがって、自動評価が適用できない非標準的な状況では、人間による評価が自然な選択になります。たとえば、オープン世代のタスクでは、BERTScore などの埋め込み類似性測定では十分ではなく、人間による評価の方が信頼性が高くなります。一部の生成タスクでは自動評価プロトコルを採用できますが、これらのタスクでは、生成は常にグラウンド トゥルースよりも優れている可能性があるため、人間による評価が推奨されます。LLM の人による評価は、人間の参加を通じてモデルによって生成された結果の品質と精度を評価する方法です。自動評価と比較して、手動評価は実際のアプリケーション シナリオに近く、より包括的で正確なフィードバックを提供できます。LLM の手動評価では、通常、モデルによって生成された結果を評価するために評価者 (専門家、研究者、または一般ユーザーなど) が招待されます。たとえば、Ziems らは、生成に専門家の注釈を使用しました。人間による評価では、Liang らは 6 つのモデルの要約と偽情報シナリオについて人間による評価を実行し、Bang らは類推タスクを評価しました。Bubeck らによる画期的な評価研究では、GPT-4 を使用して一連の人体テストを実行し、GPT-4 が複数のタスクで人間のパフォーマンスに近いか、それを超えていることがわかりました。この評価では、自動化された評価メトリクスを通じてモデルを評価するだけでなく、人間の評価者が実際にモデルのパフォーマンスをテストして比較する必要があります。人間の評価であっても大きなばらつきと不安定性が存在する可能性があり、これは文化や個人の違いによる可能性があることに注意する必要があります。実際のアプリケーションでは、これら 2 つの評価方法が実際の状況に応じて考慮され、比較検討されます。

6. まとめ

        このセクションでは、さまざまなタスクにおける LLM の成功例と失敗例を要約します。

6.1 LLM はどの分野で優れていますか?

  • LLM は、テキストを生成し、流暢で正確な言語表現を生み出す能力を証明します。
  • LLM は言語理解に優れており、感情分析やテキスト分類などのタスクを実行できます。
  • LLM は強力な文脈理解があり、入力と一致する一貫した応答を生成できます。
  • LLM は、機械翻訳、テキスト生成、質問応答タスクなど、いくつかの自然言語処理タスクで優れたパフォーマンスを示しています。

6.2 どのような状況で LLM が失敗する可能性がありますか?

  • LLM は生成中にバイアスや不正確さを示す可能性があり、結果として出力にバイアスが生じます。
  • LLM は、複雑なロジックや推論タスクを理解する能力に限界があり、複雑な環境では混乱やエラーがよく発生します。
  • LLM は大規模なデータセットと長期メモリの処理に制限があり、長いテキストや長期の依存関係を伴うタスクの処理に課題が生じる可能性があります。
  • LLM にはリアルタイムまたは動的な情報の統合には限界があり、最新の知識や変化する環境への迅速な適応を必要とするタスクにはあまり適していません。
  • LLM は、手がかり、特に堅牢性を向上させるための新しい評価とアルゴリズムを引き起こす敵対的な手がかりに非常に敏感です。
  • テキスト要約の分野では、LLM が特定の評価指標で標準以下のパフォーマンスを示す可能性があることが観察されます。これは、それらの特定の指標の本質的な制限または不十分さに起因する可能性があります。
  • LLM は、事実に反するタスクでは満足のいくパフォーマンスを達成できません。

7. 大きな課題

        新しい分野としての評価: 大規模モデルの評価をまとめたことが、私たちに多くの側面を再設計するきっかけを与えてくれました。ここでは、以下の7つのグランドチャレンジを紹介します。

  • AGI ベンチマークの設計: AGI タスクを正しく測定する、信頼性が高く、信頼できる、計算可能な評価指標は何ですか?
  • 行動評価のための AGI ベンチマークの設計: 標準タスク以外に、ロボット インタラクションなどの他のタスクでも AGI を測定するにはどうすればよいでしょうか?
  • ロバスト性評価: 現在の大規模モデルは入力プロンプトに対してロバスト性がありません。より良いロバスト性評価基準を構築するにはどうすればよいですか?
  • 動的進化の評価:大規模モデルの能力は常に進化しており、学習データの記憶にも問題があります。より動的で進化的な評価方法を設計するにはどうすればよいでしょうか?
  • 信頼できる評価: 設計された評価基準が信頼できるものであることを確認するにはどうすればよいでしょうか?
  • すべての大規模モデル タスクの統合評価をサポートします。大規模モデルの評価はエンドポイントではありません。大規模モデルに関連する下流タスクと評価スキームを統合するにはどうすればよいですか?
  • 単純な評価を超えて: 大規模モデルの強化: 大規模モデルの長所と短所を評価した後、特定の側面でパフォーマンスを向上させる新しいアルゴリズムを開発するにはどうすればよいでしょうか?

8. 結論 

       評価は広範囲に影響を及ぼし、AI モデル、特に大規模な言語モデルの進歩において重要になっています。このペーパーでは、何を評価するか、どのように評価するか、どこを評価するかという 3 つの側面で LLM の評価の包括的な概要を提供する最初の調査を紹介します。私たちの目標は、評価タスク、プロトコル、ベンチマークをカプセル化することで LLM の現状の理解を深め、その長所と限界を明確にし、LLM の将来の進歩のための洞察を提供することです。私たちの調査では、現在の LLM は多くのタスク、特に推論タスクと堅牢性タスクにおいて多少制限があることが明らかになりました。同時に、LLM の固有の機能と限界を正確に評価するために、最新の評価システムを適応させ進化させる必要性が依然として明らかです。私たちは、LLM が人類へのサービスを徐々に強化できることを期待しながら、将来の研究が取り組むべきいくつかの大きな課題を特定します。

おすすめ

転載: blog.csdn.net/wshzd/article/details/131790050