Astuce de construction d'échantillons de réglage fin de grand modèle - Code World

Astuce de construction d'échantillons de réglage fin de grand modèle

Enterprise 2023-07-23 05:21:06 views: null

Interviewer : Comment le réglage fin des grands modèles organise-t-il les échantillons d'apprentissage ?

Vous : une question et une réponse pour la formation de grands modèles, une instruction et une sortie. Les questions et les instructions peuvent être utilisées comme entrée rapide et les réponses comme sortie. La partie du calcul de la perte doit bloquer le jeton du pad.

Interviewer : Comment organiser des échantillons de formation en plusieurs cycles de dialogue ?

Vous : En supposant que les multiples tours sont Q1A1/Q2A2/Q3A3, alors il peut être converti en trois échantillons d'entraînement de Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3.

Intervieweur : Dans ce cas, une session devient trois éléments de données, et les éléments ci-dessus sont répétés dans l'ordre. Y aura-t-il des problèmes ?

Vous : la plupart des données sont des jetons de pad et l'efficacité d'utilisation des données d'entraînement est faible. De plus, il y aura un problème d'expansion répétée des données. L'expansion répétée des données d'entraînement est le nombre de sessions * le nombre moyen de tours, et il y a des parties répétées dans ce qui précède, et l'efficacité de l'entraînement sera également faible.

Interviewer : Vous avez également réalisé cela, y a-t-il un moyen de l'améliorer ?

Vous : Existe-t-il un moyen de créer une session en tant qu'échantillon d'entraînement à la fois ? (Réflexion)

Intervieweur : Rappel, limitez-vous à la série de modèles uniquement décodeurs, utilisez les fonctionnalités du modèle pour améliorer le formulaire d'organisation de l'échantillon.

Pour ce problème, réfléchissons aux caractéristiques du modèle de décodeur uniquement. Le premier point est que sa forme d'attention est occasionnelle. Une compréhension simple de occasionnel est un tableau triangulaire. Un seul jeton ne peut voir que les informations au-dessus de lui.

comme le montre l'image:

Je suppose que tu aimes

Origine blog.csdn.net/u013250861/article/details/131686901

Astuce de construction d'échantillons de réglage fin de grand modèle

Principe de réglage fin du grand modèle PNL

ChatGLM-6B résumé pratique de réglage fin du grand modèle

Le septième du grand modèle de langage - SFT de réglage fin du GPU unique Llama-2

modèle de pré-formation Resnet et réglage fin

Texte long de 10 000 mots - Examen du réglage des instructions d'un grand modèle de langage

[LLM] ensemble de données de réglage fin d'instructions de construction d'auto-instruction

Le nouveau travail de Fudan Qiu Xipeng : le réglage fin d'une seule machine d'un grand modèle avec 65 milliards de paramètres, les initiés de l'industrie : il est d'une grande importance pour la vulgarisation des grands modèles...

Entraînez votre propre modèle de réglage fin ChatGPT-OpenAI

Réglage fin du modèle de diffusion stable sur les processeurs Intel

Pratique de l'application de réponse aux questions de connaissances basée sur un grand modèle de langage – Construction d'une base de connaissances (Partie 1)

Aperçu des principes d'une technologie de réglage fin efficace pour les grands paramètres de modèle (2) - BitFit, Prefix Tuning, Prompt Tuning

Micro Frontiers | Numéro 1 : Génération vidéo fortement contrôlable ; Récupération d'échantillons personnalisés ; Utilisation de l'EEG pour reconstruire la perception visuelle ; Évaluation de la robustesse d'un grand modèle

[AI] Aide-mémoire d'algorithme - résumant la méthode de réglage fin des grands modèles

[PaddleOCR-det-finetune] 1 : Formation au réglage fin du modèle de détection Det basée sur PPOCRv3

【Grand modèle】Application d'un grand modèle dans la conception de fonctionnalités logicielles

Résumé du plan de déploiement du modèle grand langage (LLM) de Transformer

【LLM】Scène de grands modèles financiers et pratique de réglage fin de Lora de grands modèles

Réglage fin du réseau de pré-formation

Compréhension simple de LoRA (Low-Rank Adaptation) pour un réglage fin efficace de grands paramètres de modèle

Grand modèle – Déploiement cpp Onnxruntime de MobileSAM

Exemples d'optimisation et de réglage du modèle TensorFlow pour l'apprentissage en profondeur

[Recommandation] Réglage du modèle de tri

Type=nombre d'entrée el supprime la flèche de réglage à la fin

Le réglage de Linux

Bouton de réglage fin pour les composants GTK

Modèle de grand nombre 2 ------ Java

Le modèle de sujet de cas de thèse de fin d'études LDA réalise le regroupement de texte

【Réglage du modèle】 Méthode de réglage Lgb

[Résumé d'apprentissage en analyse approfondie C ++] 27 Modèle de construction de second ordre

conseillé

Classement

du quotidien

Plus

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(2)

2024-06-03(0)

2024-06-02(1)