Explication détaillée du modèle derrière ChatGPT
Aperçu
Transformateur
Chaque composant a un rôle
Auto-attention multi-têtes
L'importance de chaque mot est différente, apprenez QKV trois matrices (requête, clé, valeur)
plusieurs ensembles de QKV
RLHF
Processus de formation ChatGPT
Chaîne de pensée COT