DataFun : Explication détaillée du modèle derrière ChatGPT

Explication détaillée du modèle derrière ChatGPT

Aperçu

insérez la description de l'image ici

Transformateur

insérez la description de l'image ici
insérez la description de l'image ici
Chaque composant a un rôle

Auto-attention multi-têtes

insérez la description de l'image ici
L'importance de chaque mot est différente, apprenez QKV trois matrices (requête, clé, valeur)
insérez la description de l'image ici
plusieurs ensembles de QKV
insérez la description de l'image ici
insérez la description de l'image ici

RLHF

insérez la description de l'image ici
insérez la description de l'image ici

insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici

Processus de formation ChatGPT

insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici

Chaîne de pensée COT

insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici

insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/uncle_ll/article/details/131668411
conseillé
Classement