Arthur publie un outil d'évaluation de modèle d'IA open source pour identifier le meilleur LLM pour un cas d'utilisation spécifique

Arthur, une startup de surveillance de l'apprentissage automatique, a développé des outils conçus pour aider les entreprises à utiliser plus efficacement LLM. La société a récemment publié un outil open source, Arthur Bench, pour aider les utilisateurs à trouver le meilleur LLM pour un ensemble de données particulier.

Le PDG et co-fondateur d'Arthur, Adam Wenchel, a déclaré qu'ils avaient constaté beaucoup d'intérêt pour l'IA générative et le LLM, ils ont donc investi beaucoup d'énergie dans la création de produits. Considérant que ChatGPT est sorti depuis moins d'un an, il n'existe aucun moyen organisé de mesurer l'efficacité d'un outil par rapport à un autre ; c'est dans ce contexte qu'Arthur Bench est né.

"Le Arthur Bench répond à une question clé que nous entendons de chaque client, laquelle [parmi tous les choix de modèles] est la meilleure pour votre application particulière."

Arthur Bench  est livré avec un ensemble d'outils que vous pouvez utiliser pour tester systématiquement les performances ; mais sa véritable valeur réside dans le fait qu'il vous permet de tester et de mesurer les performances des types d'invites que vos utilisateurs utilisent pour une application particulière sur différents LLM.

Selon l'introduction, Bench peut aider à évaluer :

  • Standardisez le flux de travail des évaluations LLM avec une interface commune à travers les tâches et les cas d'utilisation
  • Testez si un LLM open source peut gérer vos données spécifiques ainsi que les principaux fournisseurs d'API LLM à source fermée
  • Convertissez les classements des classements LLM et des benchmarks en scores pour les cas d'utilisation réels qui vous intéressent

Wenchel souligne quevous pouvez tester 100 signaux différents et voir comment deux LLM différents – tels que Anthropic contre OpenAI – diffèrent dans les types de signaux qu'un utilisateur est susceptible d'utiliser. De plus, vous pouvez tester à grande échelle pour mieux décider quel modèle convient le mieux à votre cas d'utilisation spécifique.

Je suppose que tu aimes

Origine www.oschina.net/news/254323/arthur-bench-open-source
conseillé
Classement