Arthur が、特定のユースケースに最適な LLM を特定するためのオープンソース AI モデル評価ツールをリリース

機械学習モニタリングのスタートアップである Arthur は、企業が LLM をより効果的に使用できるように設計されたツールを開発してきました。同社は最近、ユーザーが特定のデータセットに最適な LLM を見つけられるようにするオープンソース ツール Arthur Bench をリリースしました。

Arthur CEO 兼共同創設者の Adam Wenchel 氏は、生成 AI と LLM に多くの関心が寄せられているため、製品開発に多くのエネルギーを投資していると述べました。ChatGPT がリリースされてから 1 年も経っていないことを考えると、あるツールの有効性を他のツールと比較して測定する体系的な方法はありません。この状況の中で Arthur Bench が誕生しました。

「Arthur Bench は、特定の用途に [すべてのモデルの選択肢の中で] どれが最適であるかという、あらゆるお客様から寄せられる重要な質問に答えます。」

Arthur Bench には、体系的にパフォーマンスをテストするために使用できる一連のツールが付属していますが、その本当の価値は、ユーザーが特定のアプリケーションに使用するプロンプトの種類がさまざまな LLM でどのように実行されるかをテストおよび測定できることです。

序文によると、Bench は以下の評価に役立ちます。

  • タスクとユースケースにわたる共通のインターフェースを使用して、LLM 評価のワークフローを標準化します。
  • オープンソース LLM がトップのクローズドソース LLM API プロバイダーと同様に特定のデータを処理できるかどうかをテストします。
  • LLM リーダーボードとベンチマークのランキングを、関心のある実際のユースケースのスコアに変換します

Wenchel 氏は、100 個の異なるキューをテストして、2 つの異なる LLM (Anthropic と OpenAI など) がユーザーが使用する可能性のあるキューの種類がどのように異なるかを確認できると指摘していますさらに、大規模なテストを行って、特定のユースケースに最適なパターンをより適切に決定できます。

おすすめ

転載: www.oschina.net/news/254323/arthur-bench-open-source