Comunidad de construcción mágica de ModaHub: prueba comparativa de AgentBench del agente de IA en un escenario de juego de cartas digitales

Recientemente, investigadores de la Universidad de Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley diseñaron una herramienta de prueba, AgentBench, para evaluar la capacidad de razonamiento y toma de decisiones de LLM en un entorno de generación abierto multidimensional . Los investigadores realizaron una evaluación exhaustiva de 25 LLM, incluidos modelos de negocio basados ​​en API y modelos de código abierto.

Descubrieron que los mejores LLM comerciales exhiben sólidas capacidades en entornos complejos y que los mejores modelos como GPT-4 pueden manejar una amplia gama de tareas del mundo real, superando significativamente a los modelos de código abierto. Los investigadores también dijeron que AgentBench es una prueba de referencia dinámica multidimensional, que actualmente consta de 8 escenarios de prueba diferentes y cubrirá un rango más amplio en el futuro para realizar una evaluación sistemática más profunda de LLM.

Fuente: sitio web oficial de arXiv

Supongo que te gusta

Origin blog.csdn.net/qinglingye/article/details/132362197
Recomendado
Clasificación