【LLM評価】Ceval | rouge | MMLUベンチマーク

注記

  • 大規模モデルのいくつかの評価ベンチマークは次のとおりです。
  • 複数ラウンド: MTBench
  • 評価に注目:エージェントベンチ
  • 長いテキストの評価:longbench、longeval
  • ツール呼び出しの評価: ツールベンチ
  • 安全性評価: cvalue、safetyprompt など。

共通の評価ベンチマーク

ここに画像の説明を挿入します
「大規模言語モデルの評価に関する調査」より図

以下の指標はすべて、chatglm2 で使用される評価指標です。

MMLU

モデル 平均 社会科学 人文科学 その他
チャットGLM-6B 40.63 33.89 44.84 39.02 45.71
チャットGLM2-6B(ベース) 47.86 41.20 54.44 43.66 54.46
チャットGLM2-6B 45.46 40.06 51.61 41.23 51.24

Chat モデルはゼロショット CoT (Chain-of-Thought) メソッドを使用してテストされ、Base モデルは少数ショットの回答のみのメソッドを使用してテストされます。

SuperCLUE:中国汎用大型モデルの総合評価ベンチマーク

  • プロジェクトリンク:
    • SuperCLUE :https://github.com/CLUEbenchmark/SuperCLUE
    • SuperCLUE Langya リスト: https://github.com/CLUEbenchmark/SuperCLUElyb
    • ウェブサイト: https://www.cluebenchmarks.com/
  • SuperCLUEは、モデルの能力を基礎能力、専門能力、中国特性能力の3つの側面から評価します。SuperCLUE の機能には次のものが含まれます: 多次元の能力評価 (3 つの主要カテゴリ、70 以上のサブ能力)、

自動評価(ワンクリック評価)、幅広い代表モデル(9モデル)、ヒューマンベンチマーク。
SuperCLUE Langya ランキングには、さまざまなモデル間の戦闘勝利データも含まれています (以下を参照)。gpt3.5 トレーニング コーパスに中国語のコーパスがあまりないことを考慮すると、一部の大手国内モデルに比べて若干劣るのは理解できます。
ここに画像の説明を挿入します

知識評価: C-Eval

C-評価

プロジェクト リンク:
質疑応答を行う場合は、Ceval インジケーターを使用できます。chatglm2-6b プロジェクトにコードがあります。
評価用にいくつかの典型的な中国語と英語のデータ セットを選択しました。以下はMMLUの ChatGLM2-6B モデルです。 (英語)、C-Eval(中国語)、GSM8K(数学)、BBH(英語)の評価結果。C-Eval での評価用のスクリプトは、評価で提供されます

モデル 平均 社会科学 人文科学 その他
チャットGLM-6B 38.9 33.3 48.3 41.3 38.0
チャットGLM2-6B(ベース) 51.7 48.6 60.5 51.3 49.8
チャットGLM2-6B 50.1 46.4 60.4 50.6 46.9

Chat モデルはゼロショット CoT メソッドを使用してテストされ、Base モデルは少数ショット応答のみのメソッドを使用してテストされます。

同様の知識評価ベンチマークには次のものがあります。

GSM8K

8.5k の高品質な小学校算数の文章題

モデル 正確さ 精度 (中国語)*
チャットGLM-6B 4.82 5.85
チャットGLM2-6B(ベース) 32.37 28.95
チャットGLM2-6B 5月28日 20.45

すべてのモデルは、少数ショット CoT メソッドを使用してテストされています。CoT プロンプトは http://arxiv.org/abs/2201.11903 から取得されます。

* 翻訳 API を使用して GSM8K の 500 の質問と CoT プロンプトを翻訳し、手動校正を実行しました

BBH

モデル 正確さ
チャットGLM-6B 18.73
チャットGLM2-6B(ベース) 33.68
チャットGLM2-6B 30.00

すべてのモデルは、少数ショット CoT メソッドを使用してテストされています。CoT プロンプトは、https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts から取得されます。

ツール学習: ToolBench

リンク: https://github.com/OpenBMB/ToolBench
ここに画像の説明を挿入します

ToolBench の一般的なアイデアは、BMTools に基づいて教師ありデータで大規模な言語モデルをトレーニングすることです。

1. プロジェクト内容

ToolBench ウェアハウスは、関連するデータ セット、トレーニングおよび評価スクリプト、ToolBench で微調整された機能モデル ToolLLaMA を提供します。

  1. シングルツールおよびマルチツールのソリューションをサポート

シングルツール設定は LangChain プロンプト スタイルに従い、マルチツール設定は AutoGPT プロンプト スタイルに従います。

  1. モデルの応答には、最終的な応答だけでなく、モデルの思考連鎖プロセス、ツールの実行、およびツールの実行結果も含まれます。

  2. 現実世界レベルの複雑さと複数ステップのツール呼び出しをサポート

  3. 気象情報、検索、株価更新、PowerPoint オートメーションなどの現実世界のシナリオのための豊富な API

  4. すべてのデータは OpenAI API によって自動的に生成され、開発チームによってフィルタリングされ、データ作成プロセスは簡単に拡張可能です

2. 評価方法

  • マシン評価: 研究者らは、マシン評価テスト プラットフォームを構築するために各ツールに対して 100 のチェーン ステップをランダムに選択し、平均で 27 の最終ステップと 73 の中間ツール呼び出しステップを使用しました。最終ステップは Rouge-L メトリクスを使用して評価されました。中間ステップは ExactMatch メトリクスを使用して実行されます。
  • 手動評価:天気、地図、株、翻訳、化学、WolframAlphaツールからランダムに10個のクエリを選択し、ツール呼び出しプロセスの合格率、最終回答、ChatGPTの最終回答との比較を評価します。
  • ChatGPT 評価: ChatGPT を介した LLaMA および ChatGPT の回答とツール使用チェーンの自動評価。

3. ツール学習に関する研究

論文: https://arxiv.org/pdf/2304.08354.pdf
には、ツール強化学習とツール指向学習が含まれており、一般的なツール学習フレームワークを定式化しています。ユーザーの指示を理解することから始めて、モデルは複雑なタスクをいくつかに分解することを学習する必要があります。サブタスクを実行し、推論を通じて計画を動的に調整し、適切なツールを選択して各サブタスクを効率的に完了します。

ファクトツール

https://github.com/GAIR-NLP/factool

ジェンベンチケース

https://github.com/zhenbench/zhenbench

gpt を使用したモデルの評価

サウスイースト大学: https://arxiv.org/abs/2303.07992
評価フレームワークは 2 つの主要なステップで構成されます。

  • まず、HELM [21] のシナリオ主導の評価戦略に触発され、テスト問題に含まれる回答タイプ、推論操作、および言語にラベルを付ける機能ベースのマルチラベル アノテーション方法を設計します。これらのラベルは、ChatGPT の推論機能を 1 つずつ分析するのに役立つだけでなく、それらの組み合わせは、ChatGPT が得意または不得意な多くの潜在的な QA シナリオを発見するのにも役立ちます。
  • 次に、CheckList [22] のテスト仕様に従い、テストの目的は、最小機能テスト (MFT)、不変テスト (INV)、および方向期待テスト (DIR) の 3 つの部分に分割されます。
    • 1 つ目は、モデルがさまざまな推論タスクを実行する精度を反映します。
    • 一方、2 番目と 3 番目は推論の信頼性を反映しています。
    • INV および DIR テストでより分析可能な結果を​​得るために、思考連鎖 (CoT) [5] 手法を採用し、他のテスト ケースを構築するためのプロンプト テンプレートを設計しました。

FlagEvalLibra

1. プロジェクト内容

  • プロジェクトリンク:
    • プロジェクトアドレス: https://github.com/FlagOpen/FlagEval
    • ウェブサイト:https://flageval.baai.ac.cn/
  • 知源研究所が複数の大学チームと協力して構築するもので、「能力・課題・指標」の三次元評価フレームワークを採用し、包括的かつ詳細な評価結果の提供を目指す大規模モデル評価プラットフォームです。このプラットフォームは、30 以上の能力、5 つのタスク、および 4 つの主要カテゴリーの指標を提供し、合計 600 以上の包括的な評価次元を備えており、タスク次元には 22 の主観的および客観的な評価データセットと 84,433 の質問が含まれています。

2. コンピテンシーフレームワーク

能力フレームワーク: モデルの認知能力の境界の説明

  • 基礎言語能力:単純理解(情報分析、抽出と一般化、判別評価など)、知識応用(知識問答、常識問答、事実問答)、推論能力(知識推論、記号推論)。
  • 高度な言語能力: 特殊な生成 (創造的な生成、コード生成、スタイルの生成、修正と洗練など)、文脈理解 (言語分析、状況適応、視点分析など)。
  • 安全性と価値観: 安全性の側面には、違法犯罪、身体的危害、プライバシーと財産、政治的配慮、真贋テストが含まれ、価値観の側面には、差別と偏見、精神的健康、礼儀正しさ、倫理が含まれます。
  • 総合力:総合総合力、分野総合力。

ここに画像の説明を挿入します

特定の指標

ルージュインジケーター

ROUGE-1、ROUGE-2、ROUGE-LおよびBERTScore

  • ROUGE指標は、機械翻訳、自動要約、質疑応答生成などの分野で一般的な評価指標です。ROUGE は、モデルによって生成された概要または回答を参照回答 (通常は手動で生成) と比較することによってスコアを計算します。
  • 一般に、f 値は f と r の調和平均です。
  • 次のrougeパッケージでは中国語テキストを直接使用できません。単語を分割して使用する必要があります。テキストの長さが長くない場合は、「お元気ですか」を「お元気ですか?」に変更するなど、手動で変更できます。
from rouge import Rouge 

hypothesis = "the #### transcript is a written version of each day 's cnn student news program use this transcript to he    lp students with reading comprehension and vocabulary use the weekly newsquiz to test your knowledge of storie s you     saw on cnn student news"

reference = "this page includes the show transcript use the transcript to help students with reading comprehension and     vocabulary at the bottom of the page , comment for a chance to be mentioned on cnn student news . you must be a teac    her or a student age # # or older to request a mention on the cnn student news roll call . the weekly newsquiz tests     students ' knowledge of even ts in the news"

rouger = Rouge()
scores = rouger.get_scores(hypothesis, reference)
[
  {
    
    
    "rouge-1": {
    
    
      "f": 0.4786324739396596,
      "p": 0.6363636363636364,
      "r": 0.3835616438356164
    },
    "rouge-2": {
    
    
      "f": 0.2608695605353498,
      "p": 0.3488372093023256,
      "r": 0.20833333333333334
    },
    "rouge-l": {
    
    
      "f": 0.44705881864636676,
      "p": 0.5277777777777778,
      "r": 0.3877551020408163
    }
  }
]

その他の手動評価指標

ここに画像の説明を挿入します
ここに画像の説明を挿入します
注: 「現場適応性」テストの知識分野には、コードプログラミング、数学的計算、創作、世論分析、医療相談、歴史的知識、法的情報、科学的説明、翻訳が含まれます。

評価結果:
ここに画像の説明を挿入します合計スコア率 = 生成品質70% + 使用状況およびパフォーマンス20% + セキュリティおよびコンプライアンス * 10% 評価期限は 2023 年 6 月 30 日です。

ここに画像の説明を挿入します
評価後の大規模なモデルの選択:
ここに画像の説明を挿入します

関連ランキング

LMSYS、c-Eval、SuperCLUElyb、PubMedQA ランキング

大型モデルの【知識】と【推論】能力

[知識]と[推論]は、大規模なモデルと小規模なモデルを大きく区別できる2つの能力です。

  • 知識ベース能力はモデル能力の基礎であり、推論能力はさらに昇華される
  • [推論] 機能の差別化度が最も高くなります。たとえば、gsm8k データセットでは、GPT のスコアは 492 ポイントですが、LLaMA7b のスコアは 7 ポイントしかありません。モデルが大きくなるたびに、基本的には10 ポイントまたは 20 ポイント以上の差。
  • 【知識】の区別は【推論】ほどではありませんが、それでも非常に高く、モデルがステップアップするごとに基本的に5~6ポイントの差があります。
  • 【推論】 基本的に能力の小さい機種は存在せず、accが一桁の場合が多く、性能が低い機種は存在しません。
  • [知識] 小さなモデルにも少しの能力があります。たとえば、MMLU の 11Bflant5 にも 40 以上があります。

英語の推論能力のベンチマークについては、https://github.com/FranxYao/chain-of-thought-hubを参照してください)

参照

[1] ROUGE: 概要の自動評価パッケージ
[2] NLP 評価指標の ROUGE
[3] 大規模モデル評価の概要: 大規模言語モデルの評価に関する調査
[4]現在の大規模言語モデルの評価ベンチマークは何ですか-some Hu
[5]知識ベース質疑応答システムの質疑応答能力評価としての ChatGPT
[6] C-Eval: 中国大型モデルの知識評価ベンチマークの構築
[7] FlagEval Libra 大型モデル評価システムとオープンプラットフォームより包括的な主要な評価ベンチマークを作成するため
[8] SuperCLUE Langya リスト: https://www.superclueai.com/

おすすめ

転載: blog.csdn.net/qq_35812205/article/details/131969328