機械学習モニタリングのスタートアップである Arthur は、企業が LLM をより効果的に使用できるように設計されたツールを開発してきました。同社は最近、ユーザーが特定のデータセットに最適な LLM を見つけられるようにするオープンソース ツール Arthur Bench をリリースしました。
Arthur CEO 兼共同創設者の Adam Wenchel 氏は、生成 AI と LLM に多くの関心が寄せられているため、製品開発に多くのエネルギーを投資していると述べました。ChatGPT がリリースされてから 1 年も経っていないことを考えると、あるツールの有効性を他のツールと比較して測定する体系的な方法はありません。この状況の中で Arthur Bench が誕生しました。
「Arthur Bench は、特定の用途に [すべてのモデルの選択肢の中で] どれが最適であるかという、あらゆるお客様から寄せられる重要な質問に答えます。」
Arthur Bench には、体系的にパフォーマンスをテストするために使用できる一連のツールが付属していますが、その本当の価値は、ユーザーが特定のアプリケーションに使用するプロンプトの種類がさまざまな LLM でどのように実行されるかをテストおよび測定できることです。
序文によると、Bench は以下の評価に役立ちます。
- タスクとユースケースにわたる共通のインターフェースを使用して、LLM 評価のワークフローを標準化します。
- オープンソース LLM がトップのクローズドソース LLM API プロバイダーと同様に特定のデータを処理できるかどうかをテストします。
- LLM リーダーボードとベンチマークのランキングを、関心のある実際のユースケースのスコアに変換します
Wenchel 氏は、100 個の異なるキューをテストして、2 つの異なる LLM (Anthropic と OpenAI など) がユーザーが使用する可能性のあるキューの種類がどのように異なるかを確認できると指摘しています。さらに、大規模なテストを行って、特定のユースケースに最適なパターンをより適切に決定できます。