UC Berkeley LLM リーダーボード (チャットボット アリーナ リーダーボード) が再び更新されました。GPT-4 が 1 位、Vicuna-33B がオープンソース モデルのトップにランクイン

UC Berkeley LLM リーダーボード (チャットボット アリーナ リーダーボード) が再び更新されました。GPT-4 が 1 位、Vicuna-33B がオープンソース モデルのトップにランクイン

1. LMSYS ORG が「LLM 予選大会」を更新

UCバークレー主催の「LLM予選トーナメント」がまた更新されました!

今回のランキングでは車種を追加(現在28機種)し、新たな評価基準を2つ追加しました。

現在、Chatbot Arena Leaderboard には3 つの評価メカニズムがあります。

  • Chatbot Arena Elo: Chatbot Arena (Chatbot Arena) によって収集された 42,000 の匿名投票に基づいて、Elo スコアリング システムを使用して得点し、Elo スコアを取得します。
  • MT-Bench スコア: MT-Bench スコアは、挑戦的なマルチラウンド ベンチマークと GPT-4 スコアに基づいており、「Judging-LLM-as-a-judge」論文で提案および検証された方法です。
  • MMLU: 広く採用されているベンチマーク。

ここに画像の説明を挿入

論文アドレス: https://arxiv.org/pdf/2306.05685.pdf

さらに、チームは、拡張されたユーザー共有ダイアログ セットでトレーニングされた、70 億、130 億、330 億のパラメーターを備えた最新の Vicuna-v1.3 シリーズ モデルもリリースし、重みが公開されました。

ここに画像の説明を挿入

プロジェクトアドレス: https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

次の図は、最新の LLM ランキングです。
ここに画像の説明を挿入

凡例: 拡張 LLM ランキング リスト

新しい評価基準では、次のことがわかります。

  • GPT-4 は依然として 1 位にランクされていますが、GPT-3.5 は 2 位に戻りました。
  • Anthropic の 2 つのクロード モデルも 3 位と 4 位を占めるほど強力です。
  • カリフォルニア大学バークレー校の最新の 330 億パラメータの Vicuna が 5 位を獲得し、Microsoft 中国チームがオープンソース化した 300 億パラメータの WizardLM モデルをわずかに上回り、オープンソース モデルのリストで再び 1 位になりました。
  • GPT-3.5、Claude-v1、および Claude-instant-v1 の MT ベンチ スコアにはほとんど差がありませんが、Elo および MMLU スコアでは後者に追い抜かれています。
  • 「オープンソース」モデルと「クローズドソース」モデルの間には依然として明らかなギャップがあり、同様のことが最初のオープンソースである Vicuna-33B にも当てはまります。
  • Google の PaLM2 はちょっと意外ですが、多くのオープンソース モデルに比べて遅れています。

2. 新しい評価機構:MT-Bench

大規模言語モデル (LLM) のパフォーマンスを評価するために現在一般的に使用されているベンチマークには、MMLU、HellaSwag、HumanEval などがあります。

しかしチームは、LLMに対する人間の好みを評価する場合、これらのベンチマークは不十分である可能性があると指摘しています。

ここに画像の説明を挿入

凡例: ユーザーと LLaMA-13B および Vicuna-13B の間の複数ラウンドの対話。MMLU ベンチマークでの質問とそれに続く指示から始まり、次にどちらの回答がより優れているかを比較するためのコンテキストを GPT-4 に提示します。

従来のベンチマークでは通常、簡潔な出力を伴うクローズドエンド式の質問 (多肢選択式の質問など) で LLM をテストしますが、これは実際にチャットボットを使用するほとんどの人にとって一般的ではありません。

このギャップを埋めるために、このリーダーボードの更新では、Chatbot Arena Elo システムに加えて、チームは新しいベンチマークである MT-Bench も追加しました。

  • MT ベンチは、対話や指示に従うモデルの能力を評価するために設計された、挑戦的なマルチラウンドの問題セットです。
  • Chatbot Arena Elo は、ユーザーがチャットボットに質問し、お気に入りの回答に投票できるクラウドソーシングのバトル プラットフォームです。

どちらのベンチマークも、主な尺度として人間の好みを考慮して設計されています。

2.1 MT-Bench を選ぶ理由?

MT-Bench は、80 個の高品質な複数ラウンドの質問で構成される、慎重に厳選されたベンチマークです。これらの質問は、複数の対話ターンにわたるモデルの対話フローと指示に従う能力を評価するように調整されています。これらには、一般的な使用シナリオだけでなく、チャットボットの差別化を目的とした難しい指示も含まれています。

正確に言うと、MT-Bench は Chatbot Arena の品質管理を補足するものです。

Chatbot Arena での 2 か月間にわたる実行中に収集されたユーザー データの一部の分析を通じて、チームは、ユーザー プロンプトの 8 つの主要カテゴリを特定しました: 書き込み、ロール プレイング、検索、推論、数学、コーディング、Knowledge One (STEM)、知識 2 (人文科学および社会科学)。このうち、各カテゴリには 10 ラウンドの問題があり、合計 160 問あります。

いくつかの問題の例を以下の図 1 に示します。

ここに画像の説明を挿入

凡例:MT-Benchの問題例

2.2 LLM を使用して LLM を判定する

ここで最も重要な質問が生じます。それは、チャットボットの回答をどのように採点するかということです。

LLM を評価するプロセスにおいて、人間の好みを収集することは非常に時間とコストがかかりますが、人間の好みは評価の「ゴールド スタンダード」です。

カリフォルニア大学バークレー校が率いるチームは、最初に GPT-4 に基づく自動評価パイプラインを検討しました。

ここに画像の説明を挿入

同チームはまた、最新の論文「裁判官としてのLLMの判断」で体系的な研究を実施し、LLM裁判官の信頼性の問題を明らかにした。

結果は、GPT-4 のような強力な LLM 裁判官が、専門家グループおよびクラウドソーシング グループの人間の裁判官の好みと非常によく一致し、80% 以上の同意を得られることを示しています。このレベルの一致は、すでに 2 人の人間の裁判官間の一致に匹敵します。

また、GPT-4 に基づく単一回答スコアリングにより、モデルを効果的にランク付けし、人間の好みによく一致させることもできます。したがって、適切に使用すると、LLM 評価者は人間の好みのスケーラブルで解釈可能な近似値として十分に機能します。

ここに画像の説明を挿入

ただし、まず、裁判官としての LLM の潜在的な限界を認識する必要があります。

  • 位置バイアス。LLM 審査員がペアごとの比較で最初の回答を選択することに偏る可能性があります。
  • 詳細バイアス。LLM 評価者は、その質に関係なく、より長い回答を好む可能性があります。
  • 自己強化バイアス。LLM 裁判官が自身の回答を支持する可能性があります。
  • LLM 裁判官が数学や推論の問題を判断する際に、推論能力が限られている可能性があります。

ここに画像の説明を挿入

凡例: さまざまな LLM 裁判官の立場の偏り

次に、これらの制限を軽減するために、チームは、少数ショットの判断、思考連鎖の判断、参照ベースの判断、および微調整の判断を使用して緩和する方法を検討します。

3. 結果の分析

3.1 MT-Bench は LLM のパフォーマンスの違いを効果的に区別できます

今回UCバークレーが発表した強化版LLMリーダーボードは28モデルを総合的に評価した。

結果は、さまざまな能力の LLM 間の明確な違いを示しており、それらのスコアは Chatbot Arena の Elo 評価と高い相関性があります。特に、MT-Bench は、GPT-4 と GPT-3.5/Claude の間、およびオープンソース モデルと独自モデルの間のパフォーマンスの明らかなギャップを明らかにします。

LLM 間のギャップをさらに深く調査するために、チームはいくつかの代表的な LLM を選択し、そのパフォーマンスをカテゴリごとに分類したのが次の図です。結果は、GPT-3.5/Claude と比較して、GPT-4 はエンコードと推論で優れたパフォーマンスを発揮する一方、Vicuna-13B はいくつかの特定のカテゴリ (抽出、エンコード、および数学) で遅れをとっていることが示されています。これは、オープンソース モデルにはまだ改善の余地がたくさんあることを示しています。

ここに画像の説明を挿入

凡例: 6 つのモデルの 8 つの能力の比較: ライティング、ロールプレイング、推論、数学、コーディング、情報抽出、自然科学、人文科学

3.2 マルチラウンド対話能力

次に、チームは、以下の表 2 に示すように、選択したモデルのマルチターン ダイアログ スコアを分析します。

ここに画像の説明を挿入

凡例: ダイアログの 1 ラウンド目と 2 ラウンド目でのモデルの MT ベンチ スコア (10 点満点)

観察結果:

  • オープンソース モデルの場合、第 1 ラウンドから第 2 ラウンドまでパフォーマンスが大幅に低下します (Vicuna-7B、WizardLM-13B など)。一方、強力な独自モデルは一貫性を維持します。
  • LLaMA ベースのモデルと許可されたモデル (MPT-7B、Falcon-40B、および命令調整された Open-LaMA) の間には、かなりのパフォーマンスのギャップがあります。

私の個人的な WeChat 公開アカウント: HsuDanに注目してください。私の学習経験、ピット回避の概要、インタビューの経験、最新の AI テクノロジー情報をさらに共有します。

参考:https://lmsys.org/blog/2023-06-22-leaderboard/

おすすめ

転載: blog.csdn.net/u012744245/article/details/131572404