Vous amener à comprendre le passé et le présent des grands modèles de langage

Cet article est partagé par la communauté Huawei Cloud « La vie passée et présente des grands modèles linguistiques » par Ma Shanghua_Lancer.

Les grands modèles de langage (LLM) , également appelés modèles de langage à grande échelle ou modèles de langage à grande échelle, sont des modèles de langage construits à partir de réseaux neuronaux profonds contenant des dizaines de milliards de paramètres, en utilisant des méthodes d'apprentissage auto-supervisées à travers un grand nombre d'apprentissages non supervisés. méthodes. Texte d’étiquette pour la formation. Depuis 2018, des entreprises et des instituts de recherche tels que Google, OpenAI, Meta, Baidu, Huawei, etc. ont successivement publié une variété de modèles, notamment BERT, GPT, etc., et ont obtenu de bons résultats dans presque toutes les tâches de traitement du langage naturel. Les grands modèles ont connu une croissance explosive en 2019, notamment après la sortie de ChatGPT (Chat Generative Pre-trained Transformer) en novembre 2022, qui a attiré une large attention dans le monde entier. Les utilisateurs peuvent utiliser le langage naturel pour interagir avec le système afin d'accomplir diverses tâches allant de la compréhension à la génération, notamment les questions et réponses, la classification, le résumé, la traduction, le chat, etc. Les grands modèles linguistiques démontrent une connaissance approfondie du monde et une compréhension du langage.

1. Concepts de base des modèles de langage à grande échelle

Le langage est la différence la plus importante entre les humains et les autres animaux, et les intelligences multiples des humains y sont également étroitement liées. La pensée logique s’exprime sous forme de langage, et une grande quantité de connaissances est également enregistrée et diffusée sous forme d’écrit. Aujourd’hui, il existe plus de milliards de ressources de pages Web sur Internet, dont la plupart sont décrites en langage naturel. Par conséquent, si les algorithmes d’IA veulent acquérir des connaissances, ils doivent savoir comprendre le langage imprécis, potentiellement ambigu et déroutant qu’utilisent les humains. L'objectif du modèle de langage (LM) est de modéliser la distribution de probabilité du langage naturel. Le modèle de langage sur le vocabulaire V, représenté par la fonction P(w1w2...wm), peut être formellement construit comme une distribution de probabilité de la séquence de mots w1w2...wm, représentant l'occurrence de la séquence de mots w1w2... wm comme phrase.Possibilité. Puisque le nombre de paramètres de la probabilité conjointe P(w1w2...wm) est très grand, il est très difficile de calculer directement P(w1w2...wm). Selon le « Dictionnaire chinois moderne (septième édition) » contenant 70 000 mots, la longueur de la phrase est calculée comme 20 mots et le nombre de paramètres du modèle atteint un nombre astronomique de 7,9792 × 1096. Les phrases de plus de 100 mots en langue écrite chinoise ne sont pas rares. Si toutes les possibilités sont prises en compte, la complexité du modèle augmentera encore considérablement, rendant impossible son stockage et son calcul. Afin de réduire l'espace des paramètres du modèle P(w1w2...wm), la séquence de phrases peut être décomposée par le processus de génération habituel de gauche à droite, et la règle de chaîne peut être utilisée pour obtenir :

Par conséquent, le processus de génération de w1w2...wm peut être considéré comme le processus de génération de mots un par un. Générez d'abord w1, puis générez w2 en fonction de w1, puis générez w3 en fonction de w1 et w2, et ainsi de suite, générez le dernier mot wm en fonction des m−1 premiers mots. Par exemple : pour le calcul de probabilité de la phrase « transformer l'effort en habitude », en utilisant la formule ci-dessus peut être transformée en :

Grâce au processus ci-dessus, la probabilité conjointe P(w1w2...wm) est convertie en produit de plusieurs probabilités conditionnelles. Cependant, l'espace des paramètres du modèle uniquement grâce au processus ci-dessus n'a pas diminué et l'espace des paramètres de P(wm|w1w2...wm.1) est toujours astronomique. Afin de résoudre le problème ci-dessus, nous pouvons en outre supposer que la probabilité d’apparition de n’importe quel mot wi est uniquement liée aux n − 1 mots passés, c’est-à-dire :

Un modèle qui satisfait aux conditions ci-dessus est appelé modèle n-gramme ou n-gramme. Où n-gramme représente une unité composée de n mots consécutifs, également appelée unité n-gramme. Bien que le modèle linguistique n-gramme puisse atténuer le problème de la probabilité de phrase de 0, le langage est créé par les personnes et les époques et a
des possibilités formation, il ne peut pas couvrir tous les n-grammes, et le corpus de formation Une fréquence nulle ne signifie pas une probabilité nulle. Par conséquent, la technologie de lissage (Smoothing) doit être utilisée pour résoudre ce problème et attribuer une valeur de probabilité non nulle à toutes les chaînes possibles pour éviter le problème de probabilité nulle. Le lissage fait référence à une méthode d'ajustement des estimations du maximum de vraisemblance afin de produire des probabilités plus raisonnables, également connue sous le nom de lissage des données. L'idée de base du lissage est d'augmenter la probabilité faible et de réduire la probabilité élevée, de sorte que la distribution globale des probabilités ait tendance à être uniforme. Ces méthodes sont souvent appelées modèles de langage statistique (SLM). n Le modèle de grammaire dans son ensemble est étroitement lié à la taille du corpus de formation et à l'ordre du modèle. Il existe un écart important dans les performances des différents algorithmes de lissage dans différentes circonstances. Bien que l'algorithme de lissage résolve bien le problème de probabilité nulle, le modèle de langage n-gramme basé sur une représentation clairsemée présente encore trois défauts évidents : (1) il ne peut pas modéliser des contextes d'une longueur supérieure à n ; (2) il repose sur le lissage d'une conception artificielle. règles Technologie ; (3) Lorsque n augmente, la rareté des données augmente et le nombre de paramètres du modèle augmente de façon exponentielle, et le modèle est affecté par le problème de la rareté des données et ses paramètres sont difficiles à apprendre avec précision. De plus, la représentation discrète des mots dans la n-grammaire ignore également les similitudes entre les mots.

Par conséquent, les modèles de langage basés sur la représentation distribuée et les réseaux de neurones sont progressivement devenus un point chaud de la recherche. Bengio et ses collègues ont proposé un modèle de langage qui utilise des réseaux de neurones à action directe pour estimer P(wi|wi−n+1...wi−1) en 2000. Le codage ponctuel d'un mot est mappé sur un vecteur réel dense de faible dimension, appelé incorporation de mots. Depuis lors, les méthodes de réseaux de neurones telles que les réseaux de neurones récurrents, les réseaux de neurones convolutifs et les réseaux de mémoire de bout en bout ont été utilisées avec succès dans la modélisation de modèles de langage. Par rapport aux modèles de langage n-gram, les méthodes de réseaux neuronaux peuvent éviter dans une certaine mesure le problème de la rareté des données. Certains modèles peuvent également éviter les restrictions sur la longueur de l'historique, permettant ainsi de mieux modéliser les dépendances à longue distance. Ce type de méthode est souvent appelé Neural Language Models (NLM). Les réseaux de neurones profonds doivent adopter des méthodes supervisées et utiliser des données annotées pour la formation.Par conséquent, le processus de formation des modèles de langage nécessite également inévitablement la construction d'un corpus de formation. Cependant, étant donné que l'objectif de formation peut être obtenu directement à partir d'un texte non étiqueté, la formation du modèle ne nécessite qu'un texte non étiqueté à grande échelle. Le modèle linguistique est également devenu une tâche typique d'apprentissage auto-supervisé (apprentissage auto-supervisé). Le développement d’Internet a rendu très facile l’obtention de textes à grande échelle, de sorte qu’il est devenu possible de former des modèles linguistiques basés sur des réseaux neuronaux à très grande échelle. Affecté par le paradigme de l'utilisation d'ImageNet pour pré-entraîner le modèle dans le domaine de la vision par ordinateur, afin que le modèle puisse pleinement apprendre à extraire des caractéristiques à travers des images massives, puis affiner le modèle en fonction des objectifs de la tâche, des méthodes basées Les modèles linguistiques pré-entraînés dans le domaine du traitement du langage naturel deviennent également progressivement courants. Le modèle vectoriel de mots dynamique représenté par ELMo a ouvert la porte à la pré-formation des modèles de langage. Depuis lors, l'émergence de modèles de langage pré-entraînés à grande échelle basés sur le modèle Transformer représenté par GPT et BERT a fait entrer pleinement le traitement du langage naturel dans le Paradigme de mise au point avant la formation.Nouvelle ère. Lorsque vous appliquez le modèle pré-entraîné aux tâches en aval, vous n'avez pas besoin de connaître trop de détails sur la tâche et vous n'avez pas besoin de concevoir une structure de réseau neuronal spécifique. Il vous suffit de « peaufiner » le modèle pré-entraîné. c'est-à-dire utiliser les données annotées de la tâche spécifique sur le modèle de langage pré-entraîné.Avec une formation supervisée, des améliorations significatives des performances peuvent être obtenues. Ce type de méthode est souvent appelé modèles linguistiques pré-entraînés (PLM). En 2020, Open AI a publié GPT-3 (GenerativePre-trained Transformer 3), un modèle de langage génératif pré-entraîné à grande échelle contenant 175 milliards de paramètres. L’ère des modèles linguistiques à grande échelle a commencé. En raison du grand nombre de paramètres des modèles de langage à grande échelle, le réglage fin de différentes tâches nécessite une grande quantité de ressources informatiques, de sorte que le paradigme de réglage fin de pré-formation n'est plus adapté aux modèles de langage à grande échelle. Cependant, les chercheurs ont découvert que grâce à des méthodes telles que l'apprentissage incontextuel (ICL), l'utilisation directe de modèles linguistiques à grande échelle peut obtenir de bons résultats dans des scénarios comportant peu d'échantillons pour de nombreuses tâches. Depuis lors, les chercheurs ont proposé des méthodes telles que les méthodes d'apprentissage rapide pour les modèles de langage à grande échelle, le modèle en tant que service (MaaS) et le réglage des instructions, et ont obtenu des résultats efficaces dans différentes tâches. Dans le même temps, des entreprises et des instituts de recherche tels que Google, Meta, Baidu, Huawei, etc. ont publié différents modèles de langage à grande échelle, notamment PaLM, LaMDA, T0, etc.

L’émergence de ChatGPT fin 2022 a pleinement démontré les capacités des modèles linguistiques à grande échelle et a déclenché une recrudescence de la recherche sur les modèles linguistiques à grande échelle. Kaplan et al. ont proposé des lois d'échelle dans la littérature, soulignant que les performances du modèle dépendent de l'échelle du modèle, notamment : du nombre de paramètres, de la taille de l'ensemble de données et de la quantité de calcul. Le modèle augmentera linéairement avec l’augmentation exponentielle des trois. Comme le montre la figure 1.1, la valeur de perte (Loss) du modèle diminue linéairement à mesure que la taille du modèle augmente de façon exponentielle. Cela signifie que la capacité du modèle peut être estimée sur la base de ces trois variables. L'augmentation du nombre de paramètres du modèle et l'expansion de la taille de l'ensemble de données peuvent améliorer de manière prévisible les performances du modèle. Cela fournit une base d’analyse quantitative pour continuer à améliorer l’échelle des grands modèles.

Figure 1.1 Lois de mise à l'échelle des modèles de langage à grande échelle

2. Historique du développement de modèles de langage à grande échelle

Bien que le processus de développement de modèles linguistiques à grande échelle n'ait duré que moins de cinq ans, la vitesse de développement est assez étonnante : en juin 2023, plus d'une centaine de grands modèles avaient été publiés dans le pays et à l'étranger. L’équipe du professeur Zhao Xin de l’Université Renmin de Chine fournit dans la littérature une chronologie de modèles linguistiques à grande échelle relativement influents avec plus de 10 milliards de paramètres de modèle de 2019 à mai 2023, comme le montre la figure 2.1. Le développement de modèles de langage à grande échelle peut être grossièrement divisé en trois étapes : modèle de base, exploration des capacités et développement révolutionnaire.

L'étape du modèle de base se concentre principalement entre 2018 et 2021. En 2017, Vaswani et ses collègues ont proposé l'architecture Transformer, qui a fait des progrès révolutionnaires dans les tâches de traduction automatique. En 2018, Google et Open AI ont proposé respectivement les modèles BERT[1] et GPT-1, inaugurant l'ère des modèles linguistiques pré-entraînés. La version BERT-Base contient 110 millions de paramètres, BERT-Large 340 millions de paramètres et GPT-1 117 millions de paramètres. À cette époque, le nombre de paramètres d’autres réseaux de neurones profonds était déjà plusieurs fois supérieur à celui des autres réseaux de neurones profonds. En 2019, Open AI a publié GPT-2, dont le nombre de paramètres a atteint 1,5 milliard. Depuis lors, Google a également publié le modèle T5 avec une taille de paramètre de 11 milliards. En 2020, Open AI a encore augmenté le nombre de paramètres de modèle de langage à 175 milliards et a publié GPT-3. Depuis lors, une série de modèles linguistiques à grande échelle ont été lancés en Chine, notamment l'Université Tsinghua ERNIE (THU), Baidu ERNIE (Baidu), Huawei Pangu-α, etc. La recherche à ce stade se concentre principalement sur le modèle de langage lui-même, y compris divers types de structures de modèle telles que Encoder Only, Encoder-Decoder et Decoder Only. Les algorithmes avec des tailles de modèle similaires à BERT utilisent généralement un paradigme de réglage fin de pré-formation pour affiner différentes tâches en aval. Cependant, lorsque le nombre de paramètres du modèle dépasse 1 milliard, en raison de la grande complexité informatique du réglage fin, l'influence de ce type de modèle est loin derrière celle des modèles BERT de l'époque.

Figure 2.1 Chronologie du développement d'un modèle de langage à grande échelle

La phase d'exploration des capacités se concentre sur la période 2019 à 2022. Étant donné que les modèles de langage à grande échelle sont difficiles à affiner pour des tâches spécifiques, les chercheurs ont commencé à explorer comment exploiter les capacités des modèles de langage à grande échelle sans effectuer de réglage précis pour une seule tâche. En 2019, Radford et ses collègues ont utilisé le modèle GPT-2 pour étudier les capacités de traitement des tâches de modèles de langage à grande échelle dans des situations à échantillon nul. Sur cette base, Brown et ses collaborateurs ont étudié une méthode d’apprentissage en quelques coups par apprentissage contextuel (In-Context Learning) sur le modèle GPT-3. Un petit nombre d'instances étiquetées de différentes tâches sont intégrées au modèle de langage avant l'échantillon à analyser, et le modèle de langage est utilisé pour comprendre la tâche en fonction des instances et donner des résultats corrects. Il a démontré de très fortes capacités dans les collections d'évaluation, notamment TriviaQA, WebQS, CoQA, etc., et a même surpassé les méthodes supervisées précédentes dans certaines tâches. La méthode ci-dessus ne nécessite pas de modifier les paramètres du modèle de langage et le modèle n'a pas besoin de dépenser beaucoup de ressources informatiques pour affiner le modèle lors de la gestion de différentes tâches. Cependant, en s'appuyant uniquement sur le modèle de langage lui-même, ses performances sont encore difficiles à obtenir des effets d'apprentissage supervisé sur de nombreuses tâches. Par conséquent, les chercheurs ont proposé une solution de réglage fin de l'instruction (Instruction Tuning) pour unifier un grand nombre de différents types de tâches en cadre de compréhension générative du langage naturel et construction d'un corpus de formation pour un réglage précis.

La phase de développement révolutionnaire commence avec la sortie de ChatGPT en novembre 2022. Grâce à une simple boîte de dialogue et un modèle de langage à grande échelle, ChatGPT peut réaliser les capacités de réponse aux questions, de rédaction de manuscrits, de génération de code, de résolution de problèmes mathématiques, etc. Dans le passé, les systèmes de traitement du langage naturel nécessitaient la personnalisation et le développement d'un grand nombre de petits modèles pour les mettre en œuvre séparément. Ses capacités en matière de réponse aux questions en champ ouvert, de diverses tâches de génération de langage naturel et de compréhension de conversations dépassent de loin l'imagination de la plupart des gens. GPT-4 a été publié en mars 2023, ce qui a apporté des améliorations significatives par rapport à ChatGPT et possède des capacités de compréhension multimodale. GPT-4 obtient des résultats supérieurs à 88 % des candidats à divers examens de référence, notamment l'examen uniforme du barreau, le test d'admission à la faculté de droit, le test d'évaluation scolaire, le SAT), etc. Il démontre des capacités proches de « l’intelligence générale artificielle (AGI) ». De grandes entreprises et instituts de recherche ont également lancé de tels systèmes, notamment Bard de Google, Wenxinyiyan de Baidu, Spark Model d'iFlytek, Zhipu ChatGLM, MOSS de l'Université de Fudan, etc. Le tableau 1.1 donne la situation de base des modèles de langage à grande échelle open source et non open source typiques en juin 2023. On peut constater que les grands modèles connaîtront une croissance explosive à partir de 2022, et que les grandes entreprises et les instituts de recherche lancent différents types de grands modèles.

3. Processus de construction de modèles de langage à grande échelle

Selon les informations divulguées par Andrej Karpathy, cofondateur d'OpenAI, lors de la conférence Microsoft Build 2023, le processus de construction de modèles de langage à grande échelle utilisé par OpenAI est illustré dans la figure 2.2. Il comprend principalement quatre étapes : pré-formation, mise au point supervisée, modélisation des récompenses et apprentissage par renforcement. Ces quatre étapes nécessitent toutes différentes échelles de collecte de données, différents types d'algorithmes, produisent différents types de modèles, et les ressources requises sont également très différentes.

Figure 2.2 Processus de construction de modèles de langage à grande échelle utilisé par OpenAI

L' étape de pré-formation nécessite l'utilisation de données de formation massives, notamment des pages Web Internet, Wikipédia, des livres, GitHub, des articles, des sites Web de questions-réponses, etc., pour créer un contenu diversifié contenant des centaines de milliards, voire des milliards de mots . À l'aide d'un supercalculateur composé de milliers de GPU hautes performances et de réseaux à haut débit, il faut des dizaines de jours pour effectuer une formation approfondie sur les paramètres du réseau neuronal et créer un modèle de langage de base (modèle de base). Le grand modèle de base construit les capacités de modélisation de textes longs, donnant au modèle la capacité de générer du langage. Sur la base des mots d'invite de saisie (Prompt), le modèle peut générer des phrases de complétion de texte. Certains chercheurs pensent également que le processus de modélisation du modèle linguistique construit également implicitement des connaissances du monde (World Knowledge), y compris des connaissances factuelles (Factual Knowledge) et des connaissances de bon sens (Commonsense). Selon leur littérature, la quantité totale de calcul de GPT-3 pour terminer une formation est de 3640PFlops. Selon NVIDIA A100 80G et l'utilisation moyenne atteint 50%, il faut près d'un mois pour terminer en utilisant 1000 GPU.

Tableau 1.1 Résumé des modèles de langage open source à grande échelle typiques

Tableau 1.2 Résumé des modèles de langage à grande échelle et sources fermées typiques

Le réglage fin supervisé , également connu sous le nom de réglage des instructions, utilise une petite quantité de collecte de données de haute qualité, y compris des invites de saisie utilisateur et des résultats de sortie idéaux correspondants. La saisie de l'utilisateur comprend des questions, des conversations de chat, des instructions de tâches et d'autres formulaires et tâches.

Par exemple : Invite : Combien de campus l'Université de Fudan possède-t-elle ?

Résultat idéal : l'Université de Fudan compte actuellement 4 campus, à savoir le campus de Handan, le campus de Xinjiangwan, le campus de Fenglin et le campus de Zhangjiang. Parmi eux, le campus de Handan est le campus principal de l'Université de Fudan. Le campus de Handan et le campus de Xinjiangwan sont tous deux situés dans le district de Yangpu, le campus de Fenglin est situé dans le district de Xuhui et le campus de Zhangjiang est situé dans la nouvelle zone de Pudong.

À l'aide de ces données supervisées, utilisez le même algorithme de formation du modèle de langage que lors de la phase de pré-formation, puis entraînez-vous sur le modèle de langage de base pour obtenir un modèle de réglage fin supervisé (modèle SFT). Le modèle SFT formé possède une capacité de compréhension des instructions préliminaires et une capacité de compréhension du contexte, peut résoudre des problèmes de domaine ouvert, une compréhension en lecture, une traduction, une génération de code et d'autres capacités, et possède également une certaine capacité de généralisation pour des tâches inconnues. Étant donné que la quantité de corpus de formation requise dans l’étape de réglage fin supervisée est faible, le processus de formation du modèle SFT ne nécessite pas une très grande quantité de calculs. En fonction de la taille du modèle et de la quantité de données d'entraînement, la formation nécessite généralement des dizaines de GPU et plusieurs jours. Le modèle SFT a des capacités préliminaires d'exécution de tâches et peut être ouvert aux utilisateurs. De nombreux modèles de type ChatGPT appartiennent à ce type, notamment : Alpaca, Vicuna, MOSS, ChatGLM-6B, etc. Beaucoup de ces modèles fonctionnent très bien, atteignant même 90 % des performances de ChatGPT dans certaines revues. Certaines recherches actuelles montrent que la sélection des données au cours de la phase de réglage fin supervisé a un impact important sur les performances du modèle SFT. Par conséquent, la manière de construire une petite quantité de données de formation de haute qualité est au centre des recherches dans le cadre de la recherche dans le cadre de la phase de réglage fin supervisé. étape de réglage de cette étape.

L'objectif est de créer un modèle de comparaison de la qualité du texte pour classer la qualité de plusieurs résultats de sortie différents donnés par le modèle SFT pour le même mot d'invite. Le modèle de récompense (modèle RM) peut juger de la qualité entre les deux résultats d'entrée grâce au modèle de classification binaire. Le modèle RM est différent du modèle de langage de base et du modèle SFT. Le modèle RM lui-même ne peut pas être fourni aux seuls utilisateurs. La formation du modèle de récompense est généralement la même que celle du modèle SFT, utilisant des dizaines de GPU et prenant plusieurs jours pour terminer la formation. Étant donné que la précision du modèle RM a un impact crucial sur l’efficacité de l’étape d’apprentissage par renforcement, la formation du modèle nécessite généralement des données de formation à grande échelle. Andrej Karpathy a souligné dans le rapport que cette partie nécessite des millions d'annotations de données comparatives, et que bon nombre de ces annotations prennent beaucoup de temps à être complétées. La figure 2.3 montre un exemple d'annotation d'échantillon de formation de modèle de récompense dans le système InstructGPT. On constate que les expressions textuelles dans les exemples sont relativement fluides. L'annotation du tri qualité nécessite la formulation de spécifications très détaillées. Les annotateurs doivent également annoter très soigneusement le contenu des spécifications standards, ce qui nécessite beaucoup de main d'œuvre. en même temps, comment maintenir le personnel d'annotation en crowdsourcing. La cohérence entre eux est également l'un des problèmes difficiles qui doivent être résolus lors de la phase de modélisation des récompenses. En outre, la limite de la capacité de généralisation du modèle de récompense est également une autre question qui doit être étudiée à ce stade. Si l'objectif du modèle RM est de porter des jugements de haute qualité sur les résultats générés par tous les systèmes de mots prompts, la difficulté rencontrée par ce problème est dans une certaine mesure équivalente à celle de la génération de texte. Par conséquent, comment limiter la limite de généralisation L'application du modèle RM est également une question difficile à ce stade.

Figure 2.3 Exemple d'annotation d'échantillons de formation de modèles de récompense dans le système InstructGPT

Dans l' étape d'apprentissage par renforcement , sur la base des mots d'invite donnés par des centaines de milliers d'utilisateurs, le modèle RM formé à l'étape précédente est utilisé pour donner au modèle SFT une évaluation de la qualité des résultats d'achèvement des mots d'invite de l'utilisateur, et il est combiné avec le objectif Le nombre de mots d'invite utilisés dans cette étape est similaire à l'étape de réglage fin supervisé, le nombre est de l'ordre de 100 000 et il n'est pas nécessaire de donner manuellement à l'avance la réponse idéale correspondant au mot d'invite. Utilisez l'apprentissage par renforcement pour ajuster les paramètres basés sur le modèle SFT afin que le texte final généré puisse obtenir une récompense plus élevée (Récompense). La quantité de calcul requise à cette étape est bien inférieure à celle de la phase de pré-formation : elle ne nécessite généralement que des dizaines de GPU et la formation peut être complétée en quelques jours. La littérature [ donne une comparaison entre l'apprentissage par renforcement et le réglage fin supervisé. Lorsque le nombre de paramètres du modèle est le même, l'apprentissage par renforcement peut obtenir de bien meilleurs résultats que le réglage fin supervisé. En septembre 2023, il n’existe toujours pas d’explication complète et généralement acceptée sur les raisons pour lesquelles l’apprentissage par renforcement peut donner de meilleurs résultats que le réglage fin supervisé. En outre, Andrej Karpathy a également souligné que l'apprentissage par renforcement n'est pas sans problème : il réduira l'entropie du modèle de base, réduisant ainsi la diversité des résultats du modèle. Une fois le modèle RL formé par la méthode d'apprentissage par renforcement, il est finalement fourni à l'utilisateur pour une utilisation dans un système de type ChatGPT qui comprend les instructions et le contexte de l'utilisateur. En raison de la faible stabilité de la méthode d'apprentissage par renforcement et du grand nombre d'hyperparamètres, il est difficile pour le modèle de converger. Couplé au problème de précision du modèle RM, il est très difficile d'appliquer efficacement l'apprentissage par renforcement dans un langage à grande échelle. des modèles.

La recherche sur les grands modèles de langage progresse si rapidement que même ceux d'entre nous qui travaillent dans le domaine du traitement du langage naturel depuis près de 30 ans ont du mal à s'adapter. La popularité de ses recherches est stupéfiante : à l’EMNLP, une importante conférence internationale dans le domaine du traitement du langage naturel, seulement moins de 5 % des articles soumis aux modèles de langage en 2022 l’ont été. Cependant, les soumissions liées aux modèles linguistiques en 2023 représentaient plus de 20 % de l'ensemble des soumissions à l'EMNLP. Comment prendre en compte la théorie de base des grands modèles de langage et sélectionner le travail le plus représentatif à présenter à tous parmi les diverses recherches en développement rapide est l'un des plus grands défis rencontrés en écriture. Il est limité par notre niveau cognitif et en raison des limitations. des travaux de recherche entrepris, il peut y avoir de nombreuses erreurs dans la compréhension détaillée de certaines tâches et travaux. Nous demandons également aux experts et aux lecteurs de nous critiquer et de nous corriger !

 

Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~

 

OpenAI ouvre ChatGPT gratuitement à tous les utilisateurs. Des programmeurs vocaux ont falsifié les soldes ETC et détourné plus de 2,6 millions de yuans par an. Spring Boot 3.2.0 a été officiellement publié. Les employés de Google ont critiqué le grand patron après avoir quitté l'entreprise. Il a été profondément impliqué dans le projet Flutter et formulé des normes liées au HTML. Microsoft Copilot Web AI sera officiellement lancé le 1er décembre, prenant en charge le framework Web open source Terminal Chat Rust de Microsoft chinois Lancement de Rocket v0.5 : prend en charge asynchrone, SSE, WebSockets, etc. Redis implémente le framework Telegram Bot en utilisant du code pur en langage C. Si vous êtes un responsable de projet open source, rencontrez Jusqu'où pouvez-vous supporter ce type de réponse ? PHP 8.3 GA
{{o.name}}
{{m.nom}}

Guess you like

Origin my.oschina.net/u/4526289/blog/10278002