Arthur lanza una herramienta de evaluación de modelos de IA de código abierto para identificar el mejor LLM para un caso de uso específico

Arthur, una startup de monitoreo de aprendizaje automático, ha estado desarrollando herramientas diseñadas para ayudar a las empresas a usar LLM de manera más efectiva. La compañía lanzó recientemente una herramienta de código abierto, Arthur Bench, para ayudar a los usuarios a encontrar el mejor LLM para un conjunto de datos en particular.

El CEO y cofundador de Arthur, Adam Wenchel, dijo que han visto mucho interés en la IA generativa y LLM, por lo que han invertido mucha energía en la creación de productos. Dado que ChatGPT se lanzó hace menos de un año, actualmente no existe una forma organizada de medir la efectividad de una herramienta en relación con otra; es en este contexto que nació Arthur Bench.

"El Arthur Bench responde a una pregunta clave que escuchamos de todos los clientes, cuál [entre todas las opciones de modelos] es el mejor para su aplicación en particular".

Arthur Bench  viene con un conjunto de herramientas que puede usar para probar el rendimiento de manera sistemática, pero su valor real está en permitirle probar y medir cómo los tipos de avisos que usan sus usuarios para una aplicación en particular se desempeñan en diferentes LLM.

Según la introducción, Bench puede ayudar a evaluar:

  • Estandarice el flujo de trabajo de las evaluaciones de LLM con una interfaz común entre tareas y casos de uso
  • Pruebe si un LLM de código abierto puede manejar sus datos específicos, así como los principales proveedores de API de LLM de código cerrado
  • Convierta las clasificaciones de las tablas de clasificación y los puntos de referencia de LLM en puntajes para los casos de uso reales que le interesan

Wenchel señala quepodría probar 100 señales diferentes y ver cómo dos LLM diferentes, como Anthropic versus OpenAI, difieren en los tipos de señales que un usuario podría usar. Además, puede probar a escala para decidir mejor qué patrón es mejor para su caso de uso específico.

Supongo que te gusta

Origin www.oschina.net/news/254323/arthur-bench-open-source
Recomendado
Clasificación