Explication complète de l'évaluation d'un grand modèle de langage : processus d'évaluation, méthode d'évaluation et problèmes courants

Note de l'éditeur : Avec l'étude approfondie du domaine de l'évaluation des grands modèles de langage (LLM), nous avons réalisé plus clairement qu'une compréhension globale des problèmes du processus d'évaluation est cruciale pour une évaluation efficace du LLM.

Cet article explore les problèmes courants qui surviennent dans l'évaluation des modèles d'apprentissage automatique et se penche sur les défis importants que le LLM pose au domaine de l'évaluation des modèles. En termes de méthodes d'évaluation, nous les divisons en mesures d'évaluation directe, évaluation basée sur un modèle auxiliaire et évaluation basée sur un modèle. Le document souligne également l'importance d'une observation attentive des paramètres d'évaluation complexes et de l'attention portée aux détails.

Ce qui suit est la traduction, profitez-en !

Auteur |

Compiler | Yue Yang

Table des matières

01 Présentation

02 Problèmes courants dans le processus d'évaluation du modèle d'apprentissage automatique

  • 2.1 Fuite de données (Leakage)

  • 2.2 Couverture des échantillons d'essai (Couverture)

  • 2.3 L'échantillon d'évaluation du test n'a rien à voir avec la tâche (corrélations parasites)

  • 2.4 Partitionnement et formulation

  • 2.5 Graine aléatoire (Graine aléatoire)

  • 2.6 Compromis entre précision et rappel

  • 2.7 Certaines décisions inexpliquées

03 Composantes de l'évaluation des grands modèles

  • 3.1 Ensembles de données d'évaluation

  • 3.2 Le contenu de sortie du modèle (Model Output)

  • 3.3 Effectuer une forme de transformation sur des exemples de données ou de sortie de modèle Transformation d'échantillon/sortie

  • 3.3.1 Transformations en boucle transformation en boucle

  • 3.3.2 Transformations chaînées Transformations chaînées

  • 3.3.3 Sorties atomiques

  • 3.3.4 Sortie contrainte Sortie contrainte

  • 3.4 Vérité terrain

  • 3.5 Moyen d'évaluation

  • 3.5.1 Indicateurs d'évaluation directe

  • 3.5.2 Évaluation basée sur un modèle indirect ou décomposé Évaluation basée sur un modèle indirect ou décomposé

  • 3.5.3 Évaluation basée sur un modèle

  • 3.6 Rapport de performanceRapport de performance

04 tl;dr

Actuellement, les techniques de modélisation, de mise à l'échelle et de généralisation évoluent plus rapidement que les méthodes d'évaluation et de test, conduisant à une sous-estimation des modèles et à une surestimation de leurs capacités. Les capacités des modèles d'IA nous étonnent, mais si nous n'avons pas d'outil pour déterminer exactement quelle est cette capacité, ou dans quelle mesure un modèle d'IA fonctionne réellement, alors nous pourrions simplement continuer à faire confiance au modèle d'IA. n'importe quelle situation.

01 Présentation

Chaque fois qu'il existe un article populaire sur l'évaluation de modèles, nous sommes toujours en proie à la même question : comment savez-vous qu'il s'agit d'une bonne méthode d'évaluation ?

Malheureusement, obtenir une réponse n'est pas facile, et je dirais même que même si nous obtenons une réponse, elle risque d'être peu fiable. Même pour les modèles de classification simples, l'évaluation et le benchmarking (Ndlr : le processus d'évaluation et de comparaison des performances des modèles) sont devenus assez complexes. Pour être honnête, nous n'avons pas trouvé de moyen de résoudre les problèmes d'évaluation associés aux petits modèles génératifs et aux générations de forme longue ; ) modèles (modèles de base).

Maintenant, tout le monde a entre les mains ces ensembles de données académiques soigneusement organisés, et ces personnes font des statistiques et affichent des données, des résultats ou d'autres contenus pertinents basés sur ces ensembles de données, mais il est probable que lorsque les données de l'ensemble d'Internet sont explorées, ces données Les informations de l'ensemble se sont infiltrées dans l'ensemble de formation ; de plus, en tant que professionnels engagés dans l'apprentissage automatique, nous n'avons peut-être pas reçu les connaissances statistiques de base , ce qui peut entraîner certaines imperfections dans les méthodes techniques.

02Problèmes courants dans le processus d'évaluation des modèles d'apprentissage automatique

Certains problèmes communs accompagnent le processus d'évaluation des grands modèles. J'écris cet article en supposant que tout le monde utilise par défaut les problèmes suivants, car ils sont également présents dans de nombreux modèles d'apprentissage automatique précédents.

2.1 Fuite de données (Leakage)

Les informations contenues dans l'ensemble de données de test s'infiltrent dans l'ensemble d'apprentissage. Ceci est particulièrement courant dans les grands modèles de langage (LLM), car les spécificités de l'ensemble de données ne sont souvent pas détaillées et parfois même gardées secrètes.

2.2 Couverture des échantillons d'essai (Couverture)

La couverture des échantillons de test est également un problème qui doit être pris en compte. Souvent, les ensembles de données d'évaluation ne couvrent pas entièrement la variété des modalités d'évaluation pour une tâche particulière. Peut entraîner des problèmes de précision, des problèmes de variabilité, des problèmes de taille d'échantillon ou des problèmes de robustesse.

Remarque du traducteur :

Problèmes de précision : Désigne les situations où la précision du modèle obtenu lors du processus d'évaluation est insuffisante ou diffère des résultats attendus.

Problèmes de variabilité : fait référence à plusieurs évaluations où le même modèle produit des résultats incohérents dans différents ensembles de données ou conditions d'évaluation.

Problèmes de taille d'échantillon efficace : fait référence à la variété de situations dans lesquelles la taille d'échantillon utilisée pour l'évaluation peut ne pas être adéquatement représentative de la performance du modèle.

Problèmes de robustesse : Fait référence à l'instabilité des performances du modèle face à différentes distributions de données, au bruit ou aux changements d'entrée.

2.3 L'échantillon d'évaluation du test n'a rien à voir avec la tâche (corrélations parasites)

Il existe des échantillons de test substantiellement non liés ou en double. L'ensemble d'évaluation pour de nombreuses tâches s'est avéré avoir des solutions "raccourcies". Ainsi, alors que nous pourrions penser que ces échantillons de test sont bons pour évaluer une tâche particulière, ce n'est souvent pas le cas.

2.4 Partitionnement et formulation

Il est très difficile de gérer le partitionnement de l'ensemble de données d'évaluation. De nombreux ensembles de données d'évaluation ont différentes manières de répondre à la même question, ce qui peut également entraîner des fuites de données involontaires. Par exemple, dans les tâches centrées sur l'humain, les ensembles de données d'évaluation n'isolent généralement pas l'utilisateur, mais sont simplement divisés en fonction d'échantillons.

2.5 Graine aléatoire (Graine aléatoire)

La sortie d'un réseau de neurones dépend généralement légèrement de la graine de nombre aléatoire (graine aléatoire). Les rapports basés sur une seule exécution d'inférence peuvent conduire à des résultats inexacts et ne pas représenter pleinement les spécificités du problème.

2.6 Compromis entre précision et rappel

Beaucoup de gens sont d'accord avec le taux de précision, mais nous savons tous que dans différentes tâches, l'impact des faux positifs et des faux négatifs est différent. Par exemple, en utilisant un modèle d'apprentissage automatique pour la récupération d'informations, il peut être tolérable d'avoir un faux positif ou de manquer un résultat. Cependant, si le même modèle est utilisé dans la surveillance passive de la santé inacceptable.

2.7 Certaines décisions inexpliquées

Dans le domaine de l'apprentissage automatique, de nombreuses décisions doivent être prises quant à savoir s'il faut conserver ou supprimer des données. Par exemple, dans le domaine audio, les échantillons de données dont la longueur est inférieure à un certain seuil sont souvent rejetés afin de présenter les résultats dans la littérature ou d'autres documents, car ces échantillons peuvent ne pas être considérés comme de la parole valide. Connaître et interpréter ces seuils est important non seulement pour l'examen et la discussion des articles, mais aussi pour que d'autres puissent reproduire les résultats expérimentaux.

03 Composantes de l'évaluation des grands modèles

Maintenant que nous avons vu des problèmes courants dans le processus d'évaluation du modèle d'apprentissage automatique, parlons des composants du contenu d'évaluation LLM. Le contenu d'évaluation du grand modèle de langage (LLM) peut être décomposé en six parties, à savoir l'ensemble de données d'évaluation (ensembles de données d'évaluation), le contenu de sortie du modèle (sortie du modèle) et une forme de transformation de l'échantillon. sortie de données ou de modèle Transformation d'échantillon/sortie, vérité terrain, support d'évaluation, rapport de performance.

3.1 Ensembles de données d'évaluation

Les ensembles de données d'évaluation (ou appelés ensembles d'évaluation, ensembles d'évaluation) sont des échantillons de test utilisés pour évaluer le modèle. Il existe plusieurs façons de construire et d'utiliser des ensembles de données d'évaluation, chacune posant certains problèmes.

Un autre problème survient lors de l'utilisation d'ensembles de données similaires pour l'évaluation :

  1. Ambiguïté des invites : étant donné que les invites sont impliquées dans le processus, nous devons tenir compte de l'ambiguïté possible de l'invite elle-même. Bien que les ensembles de données d'évaluation (ensembles de données d'évaluation) soient utilisés sans aucun "langage d'instructions" et "addition assistée", les échantillons de données de test sont au moins cohérents. (Note du traducteur : Langage d'instruction : lors de l'utilisation d'un modèle génératif, nous pouvons guider le modèle pour générer un type spécifique de réponse ou effectuer une tâche spécifique en saisissant un langage d'instruction. Ces instructions peuvent être les exigences spécifiques de la question, les informations de base du dialogue, du format de réponse attendu, etc. Ajout d'invite : fait référence à l'ajout d'informations d'invite supplémentaires à l'entrée de texte dans le modèle pour guider le modèle afin de générer une réponse spécifique ou d'effectuer une tâche spécifique. Il peut être directement ajouté à l'entrée avec certains mots-clés, phrases ou questions spécifiques pour stimuler une attention et une créativité spécifiques dans le modèle)

  2. Intraçabilité : pour en revenir au problème de la fuite de données, qui a toujours été un problème dans le passé, maintenant que personne ne sait exactement quelles données entrent dans un modèle, même l'évaluation la plus sincère et la plus vérifiée est impossible. Il n'y a aucun moyen pour s'assurer que l'échantillon de données d'évaluation se trouve dans l'ensemble de données d'apprentissage.

Les ensembles de données d'évaluation peuvent prendre les formes suivantes :

1. Ensembles de données pré-organisés : ces ensembles de données d'évaluation pré-organisés sont dérivés de divers tests standardisés, dont la plupart sont conçus pour les humains plutôt que pour les modèles . De plus, ces ensembles de données peuvent avoir des questions basées sur la mémorisation qui pourraient être interprétées à tort comme une évaluation de la capacité de compréhension d'un grand modèle de langage (LLM). (En ce qui concerne les questions basées sur la mémorisation, le traducteur a le commentaire suivant : pour un modèle de langage, s'il peut se souvenir avec précision et fournir la bonne réponse, il peut être confondu avec une démonstration de compréhension de la question, bien qu'en fait, il peut ne pas avoir une compréhension approfondie de l'arrière-plan et de la signification du problème. Par conséquent, lors de l'évaluation de grands modèles de langage (LLM), il est nécessaire de prêter attention à ces problèmes biaisés en mémoire qui peuvent conduire à des résultats d'évaluation erronés.)

De quelle maladie souffre ce patient ? Un ensemble de données de réponse aux questions du domaine ouvert à grande échelle à partir d'un examen médical[1]

2. Ensemble d'évaluation exploré à partir d'Internet : cet ensemble de données d'évaluation est créé en recherchant des étiquettes spécifiques sur Internet et en utilisant ces étiquettes comme étiquettes pour des échantillons, ou il peut être annoté manuellement par des étiqueteurs. Les échantillons de ces ensembles d'évaluation sont susceptibles d'exister déjà dans l'ensemble d'apprentissage du modèle sous-jacent, il n'est donc généralement pas conseillé de s'appuyer uniquement sur ces ensembles de données pour l'évaluation.

TriviaQA : un ensemble de données de défi supervisé à distance à grande échelle pour la compréhension en lecture[2]

3. Ensembles d'évaluation organisés manuellement : Ces ensembles de test sont souvent utilisés pour prévenir les fuites de données. Après tout, les humains peuvent créer de nombreuses données d'évaluation uniques à évaluer. Cependant, ce type d'ensemble de données présente également certains inconvénients, tels qu'une petite échelle, difficile à créer et à mettre à jour.

Le jeu de données HumanEval proposé par "Evaluating Large Language Models Trained on Code" [3]

4. Ensembles d'évaluation flous : Ce sont des variantes ou des versions étendues d'ensembles de données d'évaluation existants dont le but est de tester le comportement du modèle face à la variabilité. La variabilité susmentionnée peut être un changement contradictoire intentionnel, ou elle peut être utilisée pour introduire des étiquettes au-delà de la plage de ses données d'apprentissage pour tester sa robustesse, ou elle ne peut être utilisée que pour créer des échantillons significativement équivalents.

Par exemple, un ensemble d'invites et d'entrées contradictoires, comme proposé dans PromptBench, complète ou remplace les échantillons d'évaluation originaux. [4]

5. Sélectionner au hasard des cas d'évaluation en fonction de l'intuition, de l'expérience et des connaissances des évaluateurs : les modèles sont évalués dans un format conversationnel, et bien que ces échantillons soient susceptibles d'être exacts, ils peuvent également être sujets à certains biais. Habituellement, l'évaluateur doit connaître la solution au problème pour effectuer l'évaluation, ce qui peut conduire à ce que l'on appelle «l'effondrement de l'imagination humaine», c'est-à-dire que l'évaluateur est placé sur une piste d'essai fixe sans diversité.

Modèle d'évaluation de dialogue à un ou plusieurs tours via "OpenAssistant Conversations - Democratizing Large Language Model Alignment" [5]

3.2 Le contenu de sortie du modèle (Model Output)

Presque toutes les solutions que nous proposons souffrent d'un problème sérieux : évaluer des modèles génératifs avec des sorties discriminantes.

La sortie du modèle dépend fortement (a) de l'invite requise pour obtenir la bonne réponse et (b) de la réponse souhaitée. Par exemple, demander au modèle de donner une étiquette de 0 ou 1 peut donner des résultats différents que de demander au modèle de donner une étiquette littérale (par exemple : spam ou non-spam). Un autre exemple : demander au modèle de générer et d'extraire directement la réponse peut entraîner une réponse différente de celle s'il y avait plusieurs choix.

La sortie du modèle basé sur la régression peut manquer d'évolutivité lorsqu'elle est soigneusement comparée et prise en compte), de sorte que l'écart type et la moyenne de la sortie du modèle de régression peuvent être modifiés. Par exemple, supposons que vous ayez un modèle qui évalue un produit et que cette note varie de 0 à 10, où 10 est la note la plus élevée. Maintenant, vous pouvez convertir ce score en une échelle de 0 à 1 pour une meilleure comparaison ou analyse. Cependant, il ne suffit pas de diviser simplement les notes par 10 pour assurer la cohérence des notes sur toutes les échelles.

3.3 Effectuer une forme de transformation sur des exemples de données ou de sortie de modèle Transformation d'échantillon/sortie

La transformation de l'entrée ou de la sortie du modèle peut être grossièrement divisée en quatre catégories :

3.3.1 Transformations en boucle transformation en boucle

Les transformations en boucle suivent généralement l'idée que nous pouvons combiner la sortie d'un modèle avec une forme d'évaluation de la réponse actuelle (peut être le même modèle, un autre modèle ou une évaluation humaine) et la réinjecter dans le modèle jusqu'au résultat souhaité. est atteint. Un exemple de cette approche est connu sous le nom de modèles d'autocritique (en itérant à plusieurs reprises la sortie et l'évaluation du modèle, de manière à optimiser en permanence les résultats)

"Reflexion: Language Agents with Verbal Reinforcement Learning" a développé un cadre modulaire pour Reflexion, utilisant trois modèles différents : un modèle d'acteur pour générer du texte et des actions ; un modèle d'évaluateur pour noter la sortie produite par l'acteur ; et un modèle d'auto-réflexion. génère des conseils améliorés par la dictée pour aider les acteurs à s'améliorer. [6]

3.3.2 Transformations chaînées Transformations chaînées

Les méthodes de conversion en chaîne n'ont généralement pas de critères d'évaluation mesurables entre une série d'entrée de modèle → sortie → entrée de modèle. Ces chaînes (...->entrée du modèle → sortie → chaîne d'entrée du modèle->...) sont généralement prédéfinies et il y a un certain nombre de chemins à suivre.

3.3.3 Sorties atomiques

Cette approche implique de décomposer la sortie du modèle en composants atomiques qui peuvent être évalués manuellement, par un système basé sur des règles ou par l'intelligence artificielle , puis une combinaison pondérée pour obtenir le résultat de l'évaluation.

3.3.4 Sortie contrainte Sortie contrainte

Cette approche garantit que les réponses du modèle contiennent uniquement des jetons prédéterminés ou autorisés en utilisant des probabilités de journal (non disponibles dans l'API GPT3.5/GPT4) ou d'autres contraintes internes. Cela vous permet de limiter la plage de sortie produite par le modèle pour vous conformer à des contraintes spécifiques.

3.4 Vérité terrain

En fait, cet aspect n'a pas besoin de trop d'explications, mais certains aspects nécessitent notre attention, en particulier lorsque vous devez prendre en compte Ground Truth dans la scène de l'évaluation. (Note du traducteur : Ground Truth est souvent utilisé pour désigner un ensemble de données, une annotation ou une étiquette considérée comme la bonne réponse ou la norme de référence. Il s'agit d'une référence pour la formation et l'évaluation des algorithmes, utilisée pour vérifier l'exactitude et les performances de la Cependant, le besoin Notez que Ground Truth peut être subjectif, incertain ou controversé, il doit donc être manipulé avec soin lors de l'évaluation et de l'application.)

Premièrement, Ground Truth peut être biaisé, incertain ou très désagréable. Lorsqu'il s'agit de tâches impliquant des humains (comme aimer la prose), le désaccord est souvent moyenné plutôt que considéré comme une courbe d'annotation. (Note du traducteur : la courbe d'annotation est une représentation visuelle des différents résultats d'étiquetage obtenus par différents étiqueteurs sur un échantillon donné lors de l'étiquetage manuel d'une tâche. Elle est utilisée pour indiquer que, dans la même tâche, le degré de différence entre les résultats d'annotation de différents annotateurs pour une entrée donnée.) Par conséquent, la sortie du modèle doit être comparée plusieurs fois pour obtenir une véritable comparaison de distribution (Note du traducteur : ici fait référence à la sortie du modèle. La sortie est comparée à la distribution réelle ou souhaitée de la tâche pour évaluer la performance et précision du modèle.).

Dans le processus d'évaluation de grands modèles, sachez qu'il peut y avoir ou non une vérité de terrain dans certaines évaluations.

Gardez à l'esprit les trois pièges possibles de la vérité terrain :

● La vérité terrain a été incluse dans la transformation en boucle ou la transformation en chaîne.

● La vérité terrain a été incluse pour guider ou ajuster les invites dans le contexte ou des exemples d'apprentissage en quelques prises de vue.

● La vérité terrain peut être utilisée pour construire la corrélation entre les indicateurs d'évaluation, mais dans l'évaluation réelle des performances du modèle, la vérité terrain n'est pas directement utilisée pour la comparaison.

3.5 Moyen d'évaluation

À mon avis, les supports d'évaluation peuvent être divisés en trois catégories distinctes.

3.5.1 Indicateurs d'évaluation directe

"Les manuels sont tout ce dont vous avez besoin" est évalué avec HumanEval et MBPP [7]

Le premier est la catégorie des « indicateurs d'évaluation directe ». Ce sont des métriques traditionnelles largement utilisées dans le domaine de l'intelligence artificielle depuis longtemps. Des mesures telles que la précision et le score F1 entrent dans cette catégorie. En règle générale, cette approche consiste à prendre une seule sortie du modèle et à la comparer à une valeur de référence, soit par le biais de contraintes, soit en extrayant les informations souhaitées. (Note du traducteur : dans cette approche, le modèle génère une sortie, telle qu'une réponse de dialogue, une étiquette de classification ou autre chose. Cette sortie est ensuite comparée à une valeur de référence pour évaluer les performances ou la précision du modèle. La manière dont la comparaison peut être faite par le biais de contraintes. Par exemple, pour l'évaluation de la réponse d'une question à choix multiples, la contrainte peut être la correspondance des lettres de choix ou la correspondance de l'option complète. En faisant correspondre la sortie du modèle avec la réponse de référence, nous peut juger du modèle s'il a produit le résultat correct. Une autre façon de comparer consiste à extraire les informations requises. Par exemple, dans une tâche de génération de dialogue, nous pouvons extraire des informations spécifiques dans la phrase ou la réponse générée par le modèle et les comparer avec les informations de référence Comparer. En comparant les informations extraites, nous pouvons juger si la sortie du modèle est comme prévu.)

L'évaluation des "mesures d'évaluation directe" peut être effectuée par le biais d'évaluations ad hoc basées sur le dialogue humain, d'ensembles de données spécialisés pré-organisés ou d'annotations directes. Par exemple, une métrique d'évaluation directe consiste à comparer directement la précision du modèle avec la vérité terrain. Lors de l'évaluation des réponses aux questions à choix multiples, des comparaisons peuvent être faites en faisant correspondre les lettres d'option, les options complètes ou les distributions d'options. Pour une compréhension plus approfondie de la façon dont ces méthodes d'évaluation affectent les résultats, lisez cet article : Que se passe-t-il avec le classement Open LLM ?[8]

3.5.2 Évaluation basée sur un modèle indirect ou décomposé Évaluation basée sur un modèle indirect ou décomposé

Critères de notation basés sur le même modèle. "TinyStories : à quel point les modèles linguistiques peuvent-ils être petits et parler un anglais cohérent ?" [9]

《Modèles d'autocritique pour aider les évaluateurs humains》[10]

"G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment" utilise le remplissage de formulaires pour l'évaluation, puis calcule la corrélation avec les préférences humaines. [11]

Scores d'évaluation basés sur des modèles de composants dans "LLM-EVAL : évaluation automatique multidimensionnelle unifiée pour les conversations à domaine ouvert avec de grands modèles de langage" [12]

Vient ensuite une deuxième classe de méthodes appelées "heuristiques indirectes ou décomposées". Dans cette approche, nous utilisons des modèles plus petits (soit des modèles affinés, soit des décompositions brutes) pour évaluer les réponses générées par le modèle principal . L'idée centrale est de sélectionner de petits modèles qui fonctionnent mieux sur les tâches pour lesquelles ces grands modèles sont bons pour l'évaluation. Les sorties de ces modèles plus petits sont considérées comme des scores faibles, qui sont ensuite combinés pour fournir une étiquette ou une note finale pour la sortie générée. Cette approche d'évaluation indirecte permet une évaluation plus granulaire des performances du modèle, en particulier dans des tâches telles que juger du goût pour la prose. Bien que ces modèles introduisent une certaine variabilité, il est important de noter qu'ils sont généralement entraînés pour des tâches de régression et affinés à des fins spécifiques. (En ce qui concerne la variabilité, le traducteur a la remarque suivante : lors de l'évaluation de modèles ou de données, la variabilité fait référence au degré de différence entre différents échantillons ou instances. Une variabilité plus élevée signifie qu'il existe une grande différence entre les échantillons. variance, tandis qu'une variabilité plus faible indique un accord relatif ou similarité entre les échantillons.)

Dans la pratique, la frontière entre cette méthode d'évaluation et la suivante est quelque peu floue, notamment en ce qui concerne la mesure dans laquelle elle affecte les résultats et les éventuelles erreurs ou incertitudes. Par conséquent, les suggestions pour de meilleurs critères d'évaluation sont les bienvenues !

3.5.3 Évaluation basée sur un modèle

Dans Sparks of AGI, la réponse est évaluée en la comparant à la vérité terrain de référence. Gardez à l'esprit que cela inclut la vérité terrain et qu'il s'agit probablement de l'une des formes les moins problématiques d'évaluation basée sur un modèle. [13]

"Bring Your Own Data! Self-Supervised Evaluation for Large Language Models" effectue une évaluation auto-supervisée basée sur l'invariance de sortie du modèle d'échantillons d'entrée flous. [14]

"Les manuels sont tout ce dont vous avez besoin" est évalué à l'aide de GPT4 [15]

Renseignez-vous sur la partie IA de Language Models (Mostly) Know What They Know. [16]

Le troisième type de méthode d'évaluation est appelé « évaluation basée sur un modèle ». Dans cette approche, le modèle lui-même fournit la note d'évaluation finale ou le résultat de l'évaluation . Cependant, cela introduit également des variables supplémentaires. Même si le modèle peut obtenir des informations de vérité de terrain, l'indice d'évaluation lui-même peut générer des facteurs aléatoires ou incertains dans le processus de notation. Prenez une question d'évaluation courante : "La sortie générée (O) est-elle similaire à la réponse de vérité terrain (G) ?" La réponse à cette question dépend non seulement du caractère aléatoire de la sortie du modèle, mais également de la variabilité de la métrique d'évaluation. lui-même.

Ce qu'il faut savoir, c'est que la pratique actuelle d'évaluation des grands modèles peut inclure ou exclure la vérité de terrain dans le processus d'évaluation.

Cela conduit à deux approches de l'évaluation basée sur un modèle :

[Inclure les données de vérité terrain] Demandez au modèle de comparer la sortie avec les données de vérité terrain et de donner une réponse positive ou négative. Cela peut également être vu comme donnant au modèle deux déclarations et lui demandant de les étiqueter "implication" (implicatif), "paraphrase" (paraphrase), ou les deux . (Note du traducteur : l'implication fait référence au fait de juger si une phrase peut être déduite d'une autre phrase. Dans cette tâche, étant donné deux phrases, le modèle doit déterminer si la première phrase est dérivée de la deuxième phrase. Par exemple, pour l'énoncé A : "Un chien poursuivait une balle dans le parc" et énoncé B : "Il y avait un chien qui jouait dehors", le jugement d'implication dirait que l'énoncé A entraîne l'énoncé B parce que l'énoncé A mentionne que le chien est dans l'activité du parc, et la phrase B mentionne qu'un chien joue à l'extérieur, il y a des similitudes entre les deux. La réécriture fait référence à la reformulation d'une phrase dans une forme différente qui a la même signification ou une signification similaire à la phrase originale. Dans cette tâche, le modèle Besoin de générer une phrase reformulée qui a une signification similaire à une phrase donnée. Par exemple, pour la phrase "J'aime la crème glacée", la phrase réécrite pourrait être "J'aime la crème glacée", bien qu'exprimée différemment, mais la signification est similaire. - les tâches d'évaluation basées sur l'implication comprennent à la fois le jugement d'implication et la génération de réécriture. Le modèle doit juger simultanément la relation d'implication entre deux phrases et générer une phrase réécrite dont le sens est similaire à la phrase donnée. Cette tâche combine des éléments d'implication et de réécriture , qui vise pour évaluer de manière exhaustive la compréhension sémantique et les capacités de génération de langage du modèle.)

[L'exclusion des données de vérité terrain] nécessite que le modèle "juge" directement la sortie du modèle. Dans ce cas, la sortie du plus petit modèle est généralement transmise au plus grand modèle et on lui demande d'évaluer l'exactitude de la réponse. Les évaluations peuvent être de brefs commentaires, des réponses sur une échelle de Likert ou n'importe quoi entre les deux . Il convient de noter que tous les articles ne soutiennent pas l'évaluation de modèles plus petits avec des modèles plus grands, ce qui est plus douteux que le premier.

L'explication habituelle donnée pour cette situation est : "c'est aussi la façon générale dont les humains font ce genre de travail". Par conséquent, nous voulons que GPT-4 soit plus humain dans l'évaluation, en évitant la méthode d'évaluation d'étiquette binaire originale. Par exemple, les auteurs de "Les manuels sont tout ce dont vous avez besoin" [7] pensent que c'est la bonne façon d'évaluer. (Note du traducteur : par exemple, « correct » ou « faux », « oui » ou « non », etc. Cependant, ces étiquettes binaires peuvent limiter l'exhaustivité et la précision de l'évaluation, car elles ne peuvent pas fournir d'informations plus granulaires ou faire la distinction entre situations complexes (des méthodes d'évaluation plus souples peuvent être utilisées, telles que la notation, la note, le diplôme ou la révision de texte, etc.).

3.6 Rapport d'évaluation du rendement Rapport sur le rendement

Nous devons être prudents lors de la présentation des métriques d'évaluation des performances dans le domaine de l'évaluation des grands modèles. Ces chiffres peuvent être affectés par de nombreux facteurs, tels que les fractionnements d'ensembles de données et d'autres nuances. L'idéal est d'utiliser différentes invites et échantillons et d'exécuter plusieurs tests sur chaque échantillon. Cependant, cette approche nécessite beaucoup de ressources et nécessite des modifications majeures des cadres d'évaluation actuels. Par conséquent, nous devons être sceptiques et prudents lors de la présentation des données d'évaluation .

Avant l'essor des grands modèles de langage tels que GPT, le domaine de l'apprentissage automatique exécutait souvent plusieurs tests avec différents modèles aléatoires pour chaque échantillon de test. Cependant, étant donné que la graine du nombre aléatoire ne peut pas être contrôlée pendant le processus d'inférence du modèle GPT, il est recommandé d'effectuer au moins trois tests. La moyenne et l'écart-type des mesures d'évaluation des performances sont maintenant devenus essentiels pour interpréter correctement les résultats de l'évaluation. Bien que les valeurs de p puissent être quelque peu complexes, il est plus problématique de revendiquer une nette amélioration du modèle sur la base de quelques différences ponctuelles et d'un seul résultat d'inférence.

Un autre aspect à considérer est le niveau de détail dans le rapport d'évaluation des performances . De nombreux ensembles de données académiques souffrent intrinsèquement de divers problèmes, qui sont encore exacerbés en prenant des moyennes sur ces grands ensembles de données multi-tâches sans tenir compte des objectifs d'évaluation spécifiques de chaque échantillon de test. Actuellement, la plupart des rapports d'évaluation manquent de détails suffisants, même dans les évaluations basées sur les tâches, sans parler de l'analyse granulaire au niveau de l'échantillon.

Mosaic 30B (publié le 22 juin 2023) propose le concept de fusion des repères en groupes thématiques pour approfondir cette question. (À propos de la fusion des repères en groupes thématiques, le traducteur a les remarques suivantes : cette méthode permet de mieux comprendre les performances du modèle dans un sujet ou un domaine spécifique et de fournir des commentaires et des suggestions d'amélioration plus ciblés. Par exemple, pour les modèles de langage, les repères pour des tâches telles que la génération de texte, la réponse aux questions et la compréhension en lecture peuvent être combinées dans un groupe de sujets pour évaluer les performances combinées du modèle sur ces tâches connexes.)

Enfin, nous devons discuter du concept de "mise au point rapide". De nombreux articles de recherche présentent les résultats des ensembles de tests en utilisant la meilleure invite pour une tâche spécifique. Bien que cette approche semble solide en théorie, ce n'est pas une mesure fiable des performances d'un modèle lors de la résolution de problèmes réels rencontrés par les utilisateurs courants. Si vous souhaitez utiliser des invites comme composants auxiliaires dans votre pipeline, il est acceptable d'utiliser la meilleure invite pour cette tâche et ce modèle. Cependant, pour les modèles de bout en bout qui s'adressent directement aux utilisateurs, il faut reconnaître que l'utilisation de la meilleure invite à chaque fois peut ne pas être réaliste ou faisable pour tous les utilisateurs, en particulier pour les modèles génériques , cela est crucial.

04 tl;dr

Dans le domaine de l'évaluation des modèles de langage (LLM), nous avons été confrontés à des problèmes complexes liés à la fiabilité de l'évaluation des modèles. En effet, l'évaluation et l'analyse comparative des modèles ont toujours été difficiles, et l'avènement de grands modèles polyvalents a encore aggravé la complexité. Les fuites de données, les limitations de la couverture des échantillons, les cas où les échantillons d'évaluation des tests ne sont pas pertinents pour la tâche et les problèmes de partitionnement des données affligent notre évaluation du modèle. De plus, le compromis entre précision et rappel et le manque de vérité terrain compliquent également la situation. Cet article explore les problèmes courants dans l'évaluation des modèles d'apprentissage automatique et examine en profondeur les défis importants que pose le LLM dans le domaine de l'évaluation des modèles. Nous classons les méthodes d'évaluation en mesures d'évaluation directe, évaluation basée sur un modèle auxiliaire et évaluation basée sur un modèle, dans le but de révéler des différences subtiles entre chaque méthode. Nous devons examiner les mesures de performance complexes avec un œil critique et prêter attention à l'importance des détails. Dans le même temps, nous avons également appris des problèmes liés au réglage précis de l'invite, ce qui nous a rappelé de considérer le scénario réel de l'interaction de l'utilisateur. Au fur et à mesure que nous approfondissions le domaine de l'évaluation des grands modèles, il nous est apparu clairement qu'une compréhension globale de ces questions complexes est essentielle pour une évaluation efficace des LLM.

FIN

Les références

1.https://arxiv.org/pdf/2009.13081v1.pdf

2.https://arxiv.org/pdf/1705.03551.pdf

3.https://arxiv.org/abs/2107.03374

4.https://arxiv.org/pdf/2306.04528.pdf

5.https://arxiv.org/pdf/2304.07327.pdf

6.https://arxiv.org/pdf/2303.11366.pdf

7.https://arxiv.org/pdf/2306.11644.pdf

8.https://huggingface.co/blog/evaluating-mmlu-leaderboard

9.https://arxiv.org/pdf/2305.07759.pdf

10.https://arxiv.org/pdf/2206.05802.pdf

11.https://arxiv.org/pdf/2303.16634.pdf

12.https://arxiv.org/pdf/2305.13711.pdf

13.https://arxiv.org/pdf/2303.12712.pdf

14.https://arxiv.org/pdf/2306.13651.pdf

15.https://arxiv.org/pdf/2306.11644.pdf

16.https://arxiv.org/pdf/2207.05221.pdf

Cet article est autorisé par l'auteur original et compilé par Baihai IDP. Si vous avez besoin de réimprimer la traduction, veuillez nous contacter pour autorisation.

Lien d'origine :

https://nlpurr.github.io/posts/case-of-llm-evals.html

Je suppose que tu aimes

Origine blog.csdn.net/Baihai_IDP/article/details/131761382
conseillé
Classement