[AI] Aide-mémoire d'algorithme - résumant la méthode de réglage fin des grands modèles

L'objectif principal de la série d'articles est de clarifier rapidement les principales différences et les scénarios d'application des différentes méthodes.

Pour les détails de la théorie, veuillez vous référer à la référence à la fin de l'article,

Des descriptions plus correctes et détaillées seront projetées dans la référence

Si vous souhaitez créer un grand modèle qui appartient à votre propre application ou à un domaine vertical spécifique, en plus de la façon dont LangChain et TaskMatrix.AI utilisent l'ingénierie rapide, le réglage fin est une manière itérative plus contrôlable et continue, modèle de langage pré-formé (PLM) + La méthode Finetuning est également le paradigme courant dominant. Voici plusieurs solutions courantes. Chaque solution cible différents scénarios, nécessite des données différentes et coûte différemment :

Mise au point supervisée

Réglage rapide

Par rapport au réglage fin directement via la structure des sous-tâches, le réglage rapide consiste principalement à familiariser les données avec le modèle pré-formé pour le réglage fin, anciennement connu sous le nom d'apprentissage en contexte (ICL), comme les tâches de classification des sentiments textuels, la différence entre les données de réglage fin traditionnelles et le réglage rapide est la suivante

[Réglage normal]

Entrée : Ce film est génial

étiquette : heureux

[Réglage rapide]

Entrée : Ce film est génial, sentez-vous [Masque]

label : Ce film est génial, soyez heureux

On peut observer que les données Prompt-tining sont plus proches de l'expression du langage naturel, et plus proches du dmomain formé par PLM. Les principales étapes comprennent : la construction de modèles ( Template construction ) et le mappage des mots d'étiquette ( Label Word Verbalizer ).

Mise au point des instructions

Proposé pour la première fois par Finetuned Language Models Are Zero-Shot Learners , il convertit principalement les sous-tâches de réglage fin en instructions en langage naturel (Instruction) pour un réglage fin. Les sous-tâches spécifiques ne sont pas importantes, principalement pour permettre au PLM de mieux comprendre les instructions humaines et de faire le bon réponse, ce qui suit est un exemple tiré de l'article


Le réglage fin d'intrusion est également la raison pour laquelle les grands modèles après GPT3 peuvent bien répondre aux instructions humaines. Des outils tels que LangChain, LlmaIndex et même GPT-Plugin sont pratiques en raison d'une méthode de réglage fin.

Apprentissage par renforcement réglage fin humain (RLHF)

La différence entre RLHF et les deux méthodes mentionnées précédemment est que son principal objectif d'apprentissage est la préférence réelle des êtres humains, ce qui est également la clé de la réponse de CahtGPT pour mieux répondre aux besoins humains.Le cadre de formation est également différent des précédents. , et la méthode d'apprentissage par renforcement est introduite., le premier à proposer cette solution est Fine-Tuning Language Models from Human Preferences

La méthode de formation consiste à laisser le réseau politique (GLM) proposer plusieurs réponses possibles, mélanger les réponses écrites par des humains, puis former le modèle de récompense pour comprendre les préférences de la notation humaine, puis guider le réseau Plocy pour produire des résultats qui sont plus conformes aux préférences humaines, mais on peut le voir Sortir, le coût de la production de données est beaucoup plus élevé que les deux méthodes ci-dessus, et il doit impliquer le processus de tri humain et d'écriture manuelle

Résumer

Ce qui suit résume les méthodes ci-dessus en fonction des tâches et des coûts appropriés

méthode adapté à la tâche coût des données coût de la formation
Réglage rapide Sous-tâches de type langage naturel, telles que : classification de texte, analyse sémantique...etc Dans , la conception et le mappage des modèles ont un impact considérable sur l'effet Faible, une sous-tâche n'a besoin que d'une petite quantité de données
Réglage des instructions Tâches de distribution à usage général, telles que : planification d'API, AutoGPT, etc. Génération basse et semi-automatique, voir Alpaca Faible, une sous-tâche n'a besoin que d'une petite quantité de données
RLHF Forte expérience utilisateur liée, telle que : personnalisation, chat...etc. Élevé, nécessite une notation manuelle et une écriture manuelle Données élevées et inconnues et effet d'entraînement

Référence 

Réglage des instructions (FLAN, instructGPT, chatGPT)

Ouvrez le nouveau paradigme du modèle Zero-Shot : Instruction Tuning

Je suppose que tu aimes

Origine blog.csdn.net/weixin_44491772/article/details/130859060
conseillé
Classement