ModaHub: オンライン ショッピング シナリオにおける AI エージェントの AgentBench ベンチマーク テスト

目次

AgentBench はどのシナリオを評価しますか?


最近、清華大学、オハイオ州立大学、カリフォルニア大学バークレー校の研究者は、多次元オープン世代環境における LLM の推論および意思決定能力を評価するためのテスト ツール AgentBench を設計しました。研究者らは、API ベースのビジネス モデルやオープンソース モデルを含む 25 の LLM の包括的な評価を実施しました。

彼らは、トップの商用 LLM が複雑な環境で強力な機能を発揮し、GPT-4 のようなトップ モデルが現実世界の幅広いタスクを処理でき、オープンソース モデルを大幅に上回るパフォーマンスを発揮できることを発見しました。研究者らはまた、AgentBench は多次元の動的ベンチマーク テストであり、現在 8 つの異なるテスト シナリオで構成されており、LLM のより詳細な体系的な評価を行うために、将来的にはより広範囲をカバーする予定であると述べています。

出典:arXiv公式サイト

おすすめ

転載: blog.csdn.net/qinglingye/article/details/132428985