Facile à comprendre le principe de chatGPT

De : Pas de données Pas intelligent

À l'heure actuelle, les informations sur chatGPT sont trop éparses, et il n'existe pas d'article détaillant tous les points de connaissance et la vue d'ensemble du système, c'est pourquoi l'auteur a rédigé cet article de synthèse.

  • Aperçu du processus de formation

  • Clarifier le chemin évolutif

  • pré-formation

    • Présentation de GPT-3

    • L'idée du modèle GPT 3

    • Comment GPT-3 apprend

    • base de données

  • Réglage fin des instructions (IFT)

  • Réglage fin supervisé (SFT)

  • Apprentissage par renforcement de la rétroaction humaine (apprentissage par renforcement à partir de la rétroaction humaine, RLHF)

  • Autres méthodes

    • Chaîne de pensée (CoT)

  • Emploi similaire à chatGPT

  • citation

Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP (remarque nips/emnlp/nlpcc entre dans le groupe de contribution correspondant)

Aperçu du processus de formation

OpenAI utilise un grand modèle de langage (LM) avec 175 B de paramètres et un modèle de récompense (RM) avec 6 B de paramètres. En plus de la pré-formation, le processus de formation est divisé en trois étapes :

  1. Collectez des ensembles de données de diverses tâches de NLP, ajoutez des descriptions de tâches et des invites pour assembler de nouveaux ensembles de données, et utilisez ces données pour affiner les modèles de langage à grande échelle pré-formés. Y compris la mise au point d'instruction et la mise au point supervisée .

  2. Échantillonnez à partir de l'ensemble de données ci-dessus, générez plusieurs réponses à l'aide d'un grand modèle de langage, classez manuellement ces réponses et formez un modèle de récompense (RM) pour l'adapter aux préférences humaines.

  3. Sur la base du modèle de réglage fin supervisé dans la première étape et du modèle de récompense dans la deuxième étape, un grand modèle de langage est en outre entraîné à l'aide d'un algorithme d'apprentissage par renforcement.

outside_default.png
image

Clarifier le chemin évolutif

La quantité de paramètres de GPT-3.5 est toujours de 175 B, et l'arbre évolutif global est le suivant :

15bc3b7076a9d34079a4c09932a0cb0a.png
image
3c0ff2e36227961fd235036dd3ddb4a6.png
image

pré-formation

Présentation de GPT-3

30c5b2b87f7fc41a3b4f3a978edb8505.jpeg 60ad4cd821f655d8fadb09ab955076e3.png
  • GPT-3 est un modèle autorégressif qui n'utilise qu'un décodeur, et l'objectif de la formation est également de prédire le mot suivant (la tâche de ne pas juger la phrase suivante).

  • Le plus grand modèle GPT-3 a des paramètres 175B, ce qui est 470 fois plus grand que le modèle BERT (0,375B)

00d87486b5b2181c087b8efb6c5dbd3e.png
image-20230221144754842

L'idée du modèle GPT 3

  • Pas besoin de se connecter à une nouvelle structure de modèle : si bert est utilisé pour les tâches NER, il est généralement connecté à LSTM+CRF

  • aucun réglage fin requis

  • Un modèle résout plusieurs tâches NLP

  • Les tâches NLP peuvent être résolues avec des modèles génératifs

  • Comme les humains, il n'a besoin de voir qu'un très petit nombre d'exemples pour apprendre

Comment GPT-3 apprend

  • Apprentissage zéro coup : fournir une description de la tâche, des conseils

  • Apprentissage ponctuel : fournissez une description de la tâche, un exemple, des conseils

  • Apprentissage en quelques coups : fournissez une description de la tâche, quelques exemples, des conseils

50665215876e69209b199e231f51f4f2.png


base de données

Modèle temps de libération Montant du paramètre La quantité de données de pré-formation
BERT-grand Mars 2019 375 millions environ 3,3 Go
Google Tag juin 2018 117 millions environ 5 Go
GPT-2 Février 2019 1,5 milliard 40 Go
GPT-3 Mai 2020 175 milliards 45 To
  • BERT-large:BooksCorpus 800M mots、 English Wikipedia 2.5Bwords

  • GPT : WebText2, BooksCorpus, Wikipédia sur 5 Go.

  • GPT-2 : Le montant total de WebText2, BooksCorpus et Wikipedia a atteint 40 Go.

  • GPT-3 : **WebText2, BooksCorpus, Wikipedia, Common Crawl** et d'autres ensembles de données avec 45 To de données.

    f24b7264604996269011e2375c492002.png
    image-20230221153905277

Réglage fin des instructions (IFT)

Collectez des ensembles de données de diverses tâches NLP, ajoutez des descriptions de tâches et des conseils pour assembler de nouveaux ensembles de données. Les ensembles de données utilisés par chatGPT sont les suivants :

375dc2201b7a793d887f2241ca81d47a.png
image-20230221113507381

Quelques papiers liés :

  • Instructions contre nature (Honovich 等, '22): https://arxiv.org/abs/2212.09689

  • Instructions surnaturelles (Wang 等, '22): https://arxiv.org/abs/2204.07705

  • Auto-instruction (Wang 等, '22): https://arxiv.org/abs/2212.10560

  • T0 (Sanh et al., '22): https://arxiv.org/abs/2110.08207

  • Ensemble de données d'instructions naturelles (Mishra et al., '22): https://arxiv.org/abs/2104.08773

  • FLAN LM (Wei et al, '22): https://arxiv.org/abs/2109.01652

  • OPT-IML (Iyer等, '22): https://arxiv.org/abs/2212.12017

Réglage fin supervisé (SFT)

Cette étape n'est pas d'empêcher les réponses dénuées de sens comme [Je ne sais pas] lorsque vous rencontrez des sujets sensibles, d'ajouter des données étiquetées manuellement pour augmenter la sécurité de la réponse, et elle peut être complétée par un ensemble de données de 100 niveaux .

bc35c516e632633b9947f933e0d17cc0.png

Quelques papiers liés :

  • LaMDA de Google : Annexe A https://arxiv.org/abs/2201.08239

  • Sparrow par DeepMind : Sparrow : Annexe F https://arxiv.org/abs/2209.14375

Apprentissage par renforcement de la rétroaction humaine (apprentissage par renforcement à partir de la rétroaction humaine, RLHF)

décrire:

  • Politique : un LM qui prend une invite et renvoie une séquence de textes (ou une distribution de probabilité de textes).

  • Espace d'action (action space) : ensemble des jetons correspondant au vocabulaire de LM (généralement de l'ordre de 50k),

  • L'espace d'observation est la séquence des jetons d'entrée possibles, qui est également relativement grande (vocabulaire ^ nombre de jetons d'entrée).

  • La fonction de récompense est une combinaison d'un modèle de préférence et d'une contrainte de changement de politique.

Ce processus est un processus en deux étapes :

  1. Agréger les données Q&R et former un modèle de récompense (Reward Model, RM)

  2. Affiner les LM avec l'apprentissage par renforcement (RL)

Ensembles de données open source :

Anthropic/hh-rlhf · Ensembles de données sur Hugging Face

OpenAI utilise les commentaires soumis par les utilisateurs.

d7bfa7352c085459adf4058d1ee66fba.png
image-20230221111329526

Autres méthodes

Cette partie présente brièvement quelques méthodes parallèles au réglage fin utilisé par chatGPT

Chaîne de pensée (CoT)

Réglage fin à l'aide de certains ensembles de données avec inférence pas à pas, comme indiqué ci-dessous

Orange est la description de la tâche, rose est la question et la réponse, et bleu est le processus de raisonnement

36c218fce4df15a8589b5ad409384c1e.png

Chaîne de conseils de pensée (Wei et al., '22): https://arxiv.org/abs/2201.11903

Emploi similaire à chatGPT

  • BlenderBot de Meta : https://arxiv.org/abs/2208.03188

  • LaMDA de Google : https://arxiv.org/abs/2201.08239

  • Moineau par DeepMind : https://arxiv.org/abs/2209.14375

  • Assistant anthropique : https://arxiv.org/abs/2204.05862

citation

  • MODÈLES DE TRANSFORMATEUR : UNE INTRODUCTION ET UN CATALOGUE

  • WebGPT : réponse aux questions assistée par navigateur avec rétroaction humaine

  • Former des modèles de langage pour suivre les instructions avec un retour humain

  • https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew

  • https://openai.com/blog/chatgpt/

  • https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ

  • https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug

  • https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w

  • https://zhuanlan.zhihu.com/p/595891945

  • https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

  • https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

  • https://arxiv.org/pdf/1706.03762.pdf

  • https://arxiv.org/pdf/2005.14165.pdf

  • https://arxiv.org/pdf/1810.04805.pdf


Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP (remarque nips/emnlp/nlpcc entre dans le groupe de contribution correspondant)

Rejoignez la planète, vous obtiendrez :

1.  Mettez à jour 3 à 5 lectures de vitesse de papier les plus récentes et de haute qualité chaque jour

2.  Les derniers supports d'apprentissage d'introduction et avancés

4.  Informations quotidiennes sur le recrutement 1-3 pour les postes d'IA tels que la PNL, la recherche, la promotion et la promotion, et le CV

f19b849de8e43ddbdd4a4747140a1d8a.png

Je suppose que tu aimes

Origine blog.csdn.net/qq_27590277/article/details/130023510
conseillé
Classement