Recientemente, investigadores de la Universidad de Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley diseñaron una herramienta de prueba, AgentBench, para evaluar la capacidad de razonamiento y toma de decisiones de LLM en un entorno de generación abierto multidimensional . Los investigadores realizaron una evaluación exhaustiva de 25 LLM, incluidos modelos de negocio basados en API y modelos de código abierto.
Descubrieron que los mejores LLM comerciales exhiben sólidas capacidades en entornos complejos y que los mejores modelos como GPT-4 pueden manejar una amplia gama de tareas del mundo real, superando significativamente a los modelos de código abierto. Los investigadores también dijeron que AgentBench es una prueba de referencia dinámica multidimensional, que actualmente consta de 8 escenarios de prueba diferentes y cubrirá un rango más amplio en el futuro para realizar una evaluación sistemática más profunda de LLM.
▷ Fuente: sitio web oficial de arXiv