De : Pas de données Pas intelligent
À l'heure actuelle, les informations sur chatGPT sont trop éparses, et il n'existe pas d'article détaillant tous les points de connaissance et la vue d'ensemble du système, c'est pourquoi l'auteur a rédigé cet article de synthèse.
Aperçu du processus de formation
Clarifier le chemin évolutif
pré-formation
Présentation de GPT-3
L'idée du modèle GPT 3
Comment GPT-3 apprend
base de données
Réglage fin des instructions (IFT)
Réglage fin supervisé (SFT)
Apprentissage par renforcement de la rétroaction humaine (apprentissage par renforcement à partir de la rétroaction humaine, RLHF)
Autres méthodes
Chaîne de pensée (CoT)
Emploi similaire à chatGPT
citation
Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP (remarque nips/emnlp/nlpcc entre dans le groupe de contribution correspondant)
Aperçu du processus de formation
OpenAI utilise un grand modèle de langage (LM) avec 175 B de paramètres et un modèle de récompense (RM) avec 6 B de paramètres. En plus de la pré-formation, le processus de formation est divisé en trois étapes :
Collectez des ensembles de données de diverses tâches de NLP, ajoutez des descriptions de tâches et des invites pour assembler de nouveaux ensembles de données, et utilisez ces données pour affiner les modèles de langage à grande échelle pré-formés. Y compris la mise au point d'instruction et la mise au point supervisée .
Échantillonnez à partir de l'ensemble de données ci-dessus, générez plusieurs réponses à l'aide d'un grand modèle de langage, classez manuellement ces réponses et formez un modèle de récompense (RM) pour l'adapter aux préférences humaines.
Sur la base du modèle de réglage fin supervisé dans la première étape et du modèle de récompense dans la deuxième étape, un grand modèle de langage est en outre entraîné à l'aide d'un algorithme d'apprentissage par renforcement.
Clarifier le chemin évolutif
La quantité de paramètres de GPT-3.5 est toujours de 175 B, et l'arbre évolutif global est le suivant :
pré-formation
Présentation de GPT-3
GPT-3 est un modèle autorégressif qui n'utilise qu'un décodeur, et l'objectif de la formation est également de prédire le mot suivant (la tâche de ne pas juger la phrase suivante).
Le plus grand modèle GPT-3 a des paramètres 175B, ce qui est 470 fois plus grand que le modèle BERT (0,375B)
L'idée du modèle GPT 3
Pas besoin de se connecter à une nouvelle structure de modèle : si bert est utilisé pour les tâches NER, il est généralement connecté à LSTM+CRF
aucun réglage fin requis
Un modèle résout plusieurs tâches NLP
Les tâches NLP peuvent être résolues avec des modèles génératifs
Comme les humains, il n'a besoin de voir qu'un très petit nombre d'exemples pour apprendre
Comment GPT-3 apprend
Apprentissage zéro coup : fournir une description de la tâche, des conseils
Apprentissage ponctuel : fournissez une description de la tâche, un exemple, des conseils
Apprentissage en quelques coups : fournissez une description de la tâche, quelques exemples, des conseils
base de données
Modèle | temps de libération | Montant du paramètre | La quantité de données de pré-formation |
---|---|---|---|
BERT-grand | Mars 2019 | 375 millions | environ 3,3 Go |
Google Tag | juin 2018 | 117 millions | environ 5 Go |
GPT-2 | Février 2019 | 1,5 milliard | 40 Go |
GPT-3 | Mai 2020 | 175 milliards | 45 To |
BERT-large:BooksCorpus 800M mots、 English Wikipedia 2.5Bwords
GPT : WebText2, BooksCorpus, Wikipédia sur 5 Go.
GPT-2 : Le montant total de WebText2, BooksCorpus et Wikipedia a atteint 40 Go.
GPT-3 : **WebText2, BooksCorpus, Wikipedia, Common Crawl** et d'autres ensembles de données avec 45 To de données.
image-20230221153905277
Réglage fin des instructions (IFT)
Collectez des ensembles de données de diverses tâches NLP, ajoutez des descriptions de tâches et des conseils pour assembler de nouveaux ensembles de données. Les ensembles de données utilisés par chatGPT sont les suivants :
Quelques papiers liés :
Instructions contre nature (Honovich 等, '22): https://arxiv.org/abs/2212.09689
Instructions surnaturelles (Wang 等, '22): https://arxiv.org/abs/2204.07705
Auto-instruction (Wang 等, '22): https://arxiv.org/abs/2212.10560
T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207
Ensemble de données d'instructions naturelles (Mishra et al., '22): https://arxiv.org/abs/2104.08773
FLAN LM (Wei et al, '22): https://arxiv.org/abs/2109.01652
OPT-IML (Iyer等, '22): https://arxiv.org/abs/2212.12017
Réglage fin supervisé (SFT)
Cette étape n'est pas d'empêcher les réponses dénuées de sens comme [Je ne sais pas] lorsque vous rencontrez des sujets sensibles, d'ajouter des données étiquetées manuellement pour augmenter la sécurité de la réponse, et elle peut être complétée par un ensemble de données de 100 niveaux .
Quelques papiers liés :
LaMDA de Google : Annexe A https://arxiv.org/abs/2201.08239
Sparrow par DeepMind : Sparrow : Annexe F https://arxiv.org/abs/2209.14375
Apprentissage par renforcement de la rétroaction humaine (apprentissage par renforcement à partir de la rétroaction humaine, RLHF)
décrire:
Politique : un LM qui prend une invite et renvoie une séquence de textes (ou une distribution de probabilité de textes).
Espace d'action (action space) : ensemble des jetons correspondant au vocabulaire de LM (généralement de l'ordre de 50k),
L'espace d'observation est la séquence des jetons d'entrée possibles, qui est également relativement grande (vocabulaire ^ nombre de jetons d'entrée).
La fonction de récompense est une combinaison d'un modèle de préférence et d'une contrainte de changement de politique.
Ce processus est un processus en deux étapes :
Agréger les données Q&R et former un modèle de récompense (Reward Model, RM)
Affiner les LM avec l'apprentissage par renforcement (RL)
Ensembles de données open source :
Anthropic/hh-rlhf · Ensembles de données sur Hugging Face
OpenAI utilise les commentaires soumis par les utilisateurs.
Autres méthodes
Cette partie présente brièvement quelques méthodes parallèles au réglage fin utilisé par chatGPT
Chaîne de pensée (CoT)
Réglage fin à l'aide de certains ensembles de données avec inférence pas à pas, comme indiqué ci-dessous
Orange est la description de la tâche, rose est la question et la réponse, et bleu est le processus de raisonnement
Chaîne de conseils de pensée (Wei et al., '22): https://arxiv.org/abs/2201.11903
Emploi similaire à chatGPT
BlenderBot de Meta : https://arxiv.org/abs/2208.03188
LaMDA de Google : https://arxiv.org/abs/2201.08239
Moineau par DeepMind : https://arxiv.org/abs/2209.14375
Assistant anthropique : https://arxiv.org/abs/2204.05862
citation
MODÈLES DE TRANSFORMATEUR : UNE INTRODUCTION ET UN CATALOGUE
WebGPT : réponse aux questions assistée par navigateur avec rétroaction humaine
Former des modèles de langage pour suivre les instructions avec un retour humain
https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew
https://openai.com/blog/chatgpt/
https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ
https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug
https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w
https://zhuanlan.zhihu.com/p/595891945
https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/1810.04805.pdf
Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP (remarque nips/emnlp/nlpcc entre dans le groupe de contribution correspondant)
Rejoignez la planète, vous obtiendrez :
1. Mettez à jour 3 à 5 lectures de vitesse de papier les plus récentes et de haute qualité chaque jour
2. Les derniers supports d'apprentissage d'introduction et avancés
4. Informations quotidiennes sur le recrutement 1-3 pour les postes d'IA tels que la PNL, la recherche, la promotion et la promotion, et le CV