Révéler comment WeChat forme de grands modèles : WeLM discret|Le site officiel a été mis à jour pour la dernière fois il y a un an

"  En présentant les idées de conception, les ensembles de données, la structure du modèle, les méthodes de formation, les résultats d'évaluation diversifiés, etc. du modèle de langage chinois pré-entraîné à grande échelle WeLM créé par WeChat, nous analysons de manière exhaustive les principes techniques et la valeur d'application de ce modèle. . "

35765ed217d676f8f360010d4fa0d41e.png


01

Le « chatgpt » de WeChat s’appelle « WeLM » (WeChat Language Model).

Introduction officielle : WeLM est un modèle de langage général très efficace pour comprendre et générer du texte.

WeLM n'impose aucune contrainte ni préréglage pour les tâches liées au langage naturel. En appelant simplement le modèle pour compléter le texte que vous saisissez, vous pouvez expérimenter ou effectuer diverses tâches en langage naturel, telles que : le dialogue utilisateur, les questions et réponses, la génération de rédaction, la réécriture de texte, la compréhension écrite, la traduction, la suite d'articles et d'autres tâches linguistiques.

Les utilisateurs peuvent résoudre diverses tâches liées au texte en appelant l'API de WeLM.

Adresse officielle :‍‍‍‍‍

https://welm.weixin.qq.com/docs/tutorial/

Avis! ! WeLM ne fournit pas d'interface de chat. Vous pouvez uniquement remplir le formulaire et demander un jeton d'appel via des appels API. ‍‍‍‍‍‍‍‍‍

Limites et quotas sur les requêtes API :

  • Jusqu'à 30 requêtes toutes les minutes pour chaque jeton.

  • Jusqu'à 1 000 000 caractères peuvent être générés toutes les 24 heures.

  • Le quota est réinitialisé toutes les 24 heures (à partir de la première demande, dans les 24 heures suivantes).

Jusqu'à 30 requêtes par minute et jusqu'à 1 million de caractères générés par jour. ‍‍‍

Dans la documentation existante, la limite de longueur du contexte n'est pas prise en charge. La taille des fenêtres de contenu de 2048 est mentionnée plus tard dans la documentation technique, ce qui devrait être cette longueur numérique. ‍‍‍‍‍‍‍‍‍‍‍

02

données

WeLM est pré-formé sur un ensemble de données organisé, provenant de diverses sources et visant à couvrir plusieurs domaines.

(1) La communauté chinoise utilise un large éventail de sujets et de langues ;

(2) Les données sont soumises à une déduplication rigoureuse, à une réduction du bruit et à un filtrage du contenu nuisible pour garantir une haute qualité ;

(3) Filtrez toutes les données qui chevauchent de manière significative les tâches en aval pour garantir l'équité de l'évaluation.

WeLM crée un sous-ensemble commun de pages Web à l'aide de notes publiées mensuellement par Common Crawl.

Tous les fichiers WET entre août 2020 et janvier 2022 ont été téléchargés et langdetect 2 a été utilisé pour filtrer les pages non chinoises. Pour les corpus spécifiques à un domaine, les données provenant de diverses sources sont mélangées, notamment des actualités, des livres, des forums en ligne populaires et des travaux universitaires.

Semblable aux données de domaine générales, WeLM utilise langdetect pour conserver les sources de données uniquement chinoises. De plus, environ 750 Go de données en anglais ont été ajoutées, collectées à partir des sources mentionnées ci-dessus, afin que le modèle linguistique puisse acquérir des connaissances bilingues. Les données complètes comprennent plus de 10 To de données texte brutes.

Parce qu'il y a beaucoup de bruit dans les données, comme du texte dénué de sens, un langage offensant, du texte d'espace réservé et du code source, en particulier des données Web explorées pour des domaines généraux.

Pour réduire ces bruits, un ensemble de filtres basés sur des règles est d'abord appliqué selon Raffel et al. À partir des données restantes, un ensemble de données étiquetées équilibrées a été construit manuellement, contenant 80 000 échantillons positifs et négatifs avec un rapport positif et négatif de 1 : 1. Les échantillons positifs sont du texte valide et propre et les échantillons négatifs sont du texte avec différents types de bruit.

WeLM a formé un classificateur binaire sur les données étiquetées construites à l'aide de Fasttext 3. Ne conservez que les échantillons positifs avec une probabilité supérieure à 0,9. Ce processus de filtrage basé sur des règles + Fasttext a réduit le total des données de 87,5 %.

Ensuite, pour dédupliquer les données de formation, WeLM a adopté une méthode de déduplication en deux étapes, notamment en utilisant l'algorithme md5 pour filtrer les paragraphes en double et en utilisant l'algorithme SimHash pour dédupliquer les documents avec un contenu similaire. Enfin, 40,02 % du contenu en double a été supprimé avec succès.

Pour éliminer la contamination des données et garantir l'équité de l'évaluation, le texte qui chevauche les données de développement et de test de WeLM est filtré à l'aide d'une méthode similaire à celle utilisée dans GPT-3.

Comment ça marche : calculez des correspondances de 17 grammes entre chaque document et les données de développement et de test que nous utilisons. Si ≥ 2 17 grammes répétés ou 1 34 grammes répétés sont trouvés dans un document, celui-ci est supprimé du corpus. Cela supprime en outre 0,15 % des données restantes.

Après avoir filtré et équilibré les données, le corpus de WeLM contient 262 milliards de jetons. En raison de la répartition inégale des données, les données sont rééchantillonnées pendant le processus de pré-formation pour équilibrer les données provenant de différentes sources.

De cette manière, les données de formation sont diverses et représentatives, couvrant différents domaines. Après équilibrage, les données de Common Crawl représentent plus de 75 % du total des données, mais après équilibrage, seulement 50 % des données d'entraînement proviennent de Common Crawl.

854af5512a725122750ca051f90fdae9.png

Comme le montre le graphique, la répartition des sujets dans Common Crawl est très inégale, la plupart des documents étant concentrés sur quelques sujets. Après l'équilibrage des données, la répartition des sujets devient plus fluide.

03

Modèle et mise en œuvre

WeLM utilise des bibliothèques de codes de formation et d'évaluation basées sur Megatron-LM4 et DeepSpeed5 pour prendre en charge une formation efficace de grands modèles de langage.

L'un d'eux a formé des modèles de langage de quatre tailles différentes, de 1,3B à 10B. Adopte la même architecture de décodeur Transformer autorégressif que GPT-3, mais présente quelques différences majeures.

L'encodage relatif est une intégration de position en rotation basée sur la position relative. Par rapport à l'encodage de position absolue utilisé dans le GPT d'origine, l'encodage relatif est plus efficace dans le traitement de la sémantique des textes longs et convient parfaitement aux tâches nécessitant la modélisation d'articles ou de livres complets. .utile.

‍‍‍‍

Le segmenteur de mots SentencePièce est utilisé et contient des balises 62 000. En plus des balises chinoises 30 000, il comprend également des mots courants dans des langues courantes telles que l'anglais, le japonais et le coréen. Préserve tous les espaces et onglets pour faciliter les tâches en aval.

280dfddfe7877e3c76a957fb51542bb3.png

WeLM a pré-entraîné trois modèles avec différents nombres de paramètres. Répertorie le nombre de couches, la taille d'activation des goulots d'étranglement, le taux d'apprentissage maximum, la taille du lot de formation et la taille de la fenêtre contextuelle (nombre d'étiquettes) pour chaque modèle.

(Remarque : l'article original mentionnait 4 modèles, mais les détails de seulement 3 modèles sont répertoriés dans le tableau)‍‍

WeLM utilise l'optimiseur AdamW pour la formation des modèles et adopte le planificateur de taux d'apprentissage cosinus.

Utilisez l'optimisation DeepSpeed ​​​​ZeRO étape 1 pour réduire la consommation de mémoire GPU. Lorsque la taille du modèle dépasse un seul GPU, un schéma tensoriel parallèle est utilisé.

Tous les modèles sont entraînés en utilisant la précision mixte FP16 pour éviter le débordement.

Les tailles de lots pendant la formation sont de 1 024 et 2 048, et la taille de la fenêtre contextuelle est de 2 048. Définissez le taux d'apprentissage maximum pour chaque modèle, augmentez progressivement le taux d'apprentissage pendant l'entraînement, puis diminuez progressivement. Le taux d'apprentissage cesse de diminuer après avoir atteint le taux d'apprentissage minimum, qui est fixé à 10 % du taux d'apprentissage maximum.

Selon l'analyse de Hoffmann et al., à mesure que le budget de calcul augmente, la taille du modèle et la quantité de données d'entraînement devraient augmenter dans des proportions à peu près égales. Par conséquent, WeLM a choisi de former un modèle de taille 10B en utilisant 128 GPU A100-SXM4-40GB dans le cadre du budget de calcul, et le volume de données de formation a dépassé 300B marqueurs. Ceci est similaire à la taille de formation de GPT-3 et Gopher. Le plus grand modèle a été formé en 24 jours environ.

Lors de la formation d'un modèle à l'échelle 10B, des problèmes d'instabilité se produiront, provoquant une augmentation soudaine de la perte, affectant le poids du modèle et la vitesse de convergence.

Pour résoudre ce problème, vous pouvez redémarrer l'entraînement à partir du point de contrôle avant l'augmentation soudaine des pertes et ignorer les 200 prochains lots de données. En outre, réduire le taux d’apprentissage et réinitialiser l’échelle de perte dynamique peut aider. Des stratégies similaires ont été utilisées par d’autres chercheurs.

7901b9f72a4a40ff972cf8a5d06a82d2.png

La figure 3a montre la courbe de perte d'entraînement. La figure 3b montre les performances moyennes du modèle sur le benchmark CLUE et la visualise pendant le processus de formation.

Comme vous pouvez le voir sur le graphique ci-dessus, la perte d'entraînement et les performances moyennes du modèle s'améliorent avec le temps. Les modèles plus grands fonctionnent nettement mieux que les modèles plus petits.

04

Évaluation du modèle

Afin de tester les performances du modèle WeLM sur plusieurs tâches de traitement du langage naturel (NLP), la méthode d'apprentissage en contexte a été adoptée. En saisissant des informations d'invite liées à la tâche, le modèle a continué à prédire les mots et à produire des résultats.

Pour les tâches de génération, le décodage WeLM est utilisé directement pour générer des réponses.

Pour les tâches de classification, un verbaliseur prédéfini est utilisé pour associer chaque étiquette à certains mots, puis WeLM est utilisé pour calculer la perplexité de ces mots lors de l'inférence, et l'étiquette correspondant au mot avec la perplexité la plus faible est sélectionnée comme prédiction du modèle.

Pour évaluer les différentes capacités de WeLM, quatre méthodes d'évaluation ont été utilisées : évaluation dans une seule langue, évaluation multilingue/mixte, évaluation de formation rapide multiple et autres évaluations de découverte.

Parmi eux, il comprend également des recherches sur l’interprétabilité, l’auto-calibrage et les capacités de mémoire de WeLM. , pour réfléchir aux différentes capacités de WeLM.

Évaluation d'une seule langue (chinois )

Lors de l'évaluation de WeLM dans la tâche PNL chinoise, des expériences ont été menées selon deux scénarios : zéro tir, zéro tir et quelques tirs. L'ensemble de données d'évaluation couvre 18 tâches de PNL chinoise. Comparé aux modèles linguistiques chinois pré-entraînés de taille similaire tels que CPM, Pangu et Ernie 3.0, WeLM est plus performant dans la plupart des tâches.

WeLM fonctionne bien dans les tâches de compréhension de lecture automatique en chinois, notamment CMRC2018, DRCD et DuReader. Traitez-le comme une tâche de génération, saisissez du texte et des questions et affichez des réponses. Dans DuReader, le sous-ensemble Zhidao a été sélectionné pour évaluation. WeLM surpasse considérablement les autres modèles dans cette tâche.

WeLM est évalué sur quatre tâches chinoises de remplissage et de complétion : People_daily (PD), Children_fairy_tale (CFT), CHID et CMRC2017.

Les tâches PD et CFT nécessitent que le modèle prédise les mots masqués dans les phrases de l'ensemble de données d'actualités PD et de l'ensemble de données CFT.

CHID fournit 10 idiomes chinois candidats et demande au modèle de choisir celui qui convient.

La tâche CMRC2017 masque les noms communs et les entités nommées dans les requêtes et nécessite que le modèle prédise les mots masqués.

Ernie3.0 fonctionne mieux sur PD et CMRC2017, tandis que WeLM fonctionne mieux sur d'autres tâches. Ceci est attendu car PD et CMRC2017 sont des tâches de prédiction de mots masqués, ce qui est cohérent avec les objectifs de pré-formation d'Ernie 3.0.

La tâche NLI nécessite que le modèle juge si l'hypothèse est établie sur la base de la prémisse, qui est divisée en trois catégories : établie, contradictoire et neutre. En utilisant les ensembles de données CMNLI et OCNLI dans le benchmark chinois GLUE pour les tâches de classification en 3 catégories, tous les modèles ont fonctionné de manière similaire. Cette tâche se produit rarement dans le texte original.

WeLM répond bien aux questions sans sources de connaissances externes, améliorant le score F1 de plus de 10 % par rapport aux autres modèles. L'évaluation utilise l'ensemble de données WebQA, qui contient des questions de Baidu. Considérez-la comme une tâche générative et évaluez-la en comparant les réponses générées par le modèle aux vraies réponses.

WeLM fonctionne bien sur l'analyse des sentiments implicites chinois et les ensembles de données ChnSentiCorp. L'analyse des sentiments est une tâche classique de la PNL qui nécessite un modèle pour déterminer le sentiment d'un texte donné.

WeLM fonctionne bien dans les tâches de classification des émotions et est capable de gérer trois catégories d'émotions, tandis que ChnSentiCorp n'en a que deux. De plus, WeLM peut également obtenir de bonnes performances dans des situations sans échantillon.

La tâche de Winograd est un problème de résolution d’ambiguïté de paires de phrases qui nécessite une connaissance du monde et des capacités de raisonnement. Le modèle WeLM a été évalué sur l'ensemble de données CLUEWSC2020, transformant la tâche en un problème de classification à choix multiples. WeLM a obtenu les meilleurs résultats, mais dans le cas de quelques échantillons, le modèle de la version 10B a décliné.

Pangu, Ernie3.0 et WeLM fonctionnent de manière similaire dans l'évaluation des tâches de raisonnement de bon sens, de l'ensemble de données utilisé par C3 et des résultats de prédiction à l'aide de la méthode de perplexité. Pangu est légèrement meilleur que WeLM dans le cas d'un échantillon nul, mais dans les quelques -exemple de cas Mauvaises performances.

Dans les expériences de classification de texte sur les tâches Headline News Title Classification (TNEWS) et iFlytek Application Description Classification (IFLYTEK), WeLM a bien fonctionné en termes de coût de calcul et a largement surpassé les autres modèles dans ces deux tâches.

Le résumé de texte vise à fournir un résumé concis d’une longueur donnée de texte saisi.

Les modèles linguistiques pré-entraînés existants démontrent leurs compétences de synthèse sans tir en utilisant des modèles tels que « écrire un titre/un résumé ».

Les performances de WeLM sont testées sur deux ensembles de données de synthèse publics chinois, et les résultats montrent que WeLM peut produire un résumé de texte raisonnable. Un WeLM peu formé génère des résumés plus diversifiés, mais peut également souffrir de scores ROUGE inférieurs en raison de choix de vocabulaire différents.

eccb3fdb59b023331d938603757e5802.png

Un défi central dans le domaine de l’intelligence artificielle est de développer des systèmes d’assistants virtuels ou de compagnons de chat suffisamment intelligents.

L’étude a révélé que WeLM peut générer du contenu de type conversation humaine dans différents styles en fonction d’invites sans aucun réglage précis.

Par exemple, dans l'exemple, WeLM peut jouer deux personnages complètement différents : le célèbre poète chinois ancien Li Bai et l'entrepreneur américain moderne Elon Musk.

Il intègre même de manière transparente les bonnes connaissances de base sur un personnage spécifique. Pour Li Bai, il utilise les lieux visités par Li Bai et les événements historiques réels de l'époque de Li Bai pour fournir une réponse fascinante. Pour Elon Musk, il s'agit d'utiliser ses connaissances en matière de conduite autonome et de Shakespeare pour apporter des réponses raisonnables.

ac7ca9953381058964edb18363c53a7b.png

ceb4e5a04278acd6139657fd305ecadc.png

Le transfert de style de texte est une tâche importante dans la génération de langage naturel, et une conversion zéro-shot peut être réalisée grâce à de grands modèles de langage pré-entraînés. WeLM peut enrichir et élargir une situation donnée, changer l'émotion ou les antonymes d'une phrase, etc. grâce à une interaction naturelle homme-machine en fonction des besoins de l'utilisateur.

L'achèvement de phrases est la tâche la plus similaire à l'objectif de modélisation linguistique utilisé en pré-formation. Les exemples ci-dessous montrent comment WeLM peut compléter une phrase donnée et générer de longs textes cohérents dans différents styles.

c553806675e0932baf183ba1643daa43.png

Évaluation multilingue

Les évaluations multilingues incluent la traduction automatique, les questions-réponses multilingues et le résumé multilingue. Les résultats expérimentaux montrent que WeLM fonctionne bien dans le cas de zéro échantillon et d'un échantillon, et n'est pas inférieur à XGLM.

La traduction automatique est un sous-domaine classique de la PNL qui étudie comment les logiciels informatiques peuvent être utilisés pour traduire entre différentes langues sans intervention humaine. Bien que WeLM utilise principalement des textes chinois pour la pré-formation, un grand nombre de caractères anglais et japonais y sont également mélangés.

Performances de WeLM dans quatre directions de traduction : ZH2JA, JA2ZH, ZH2EN et EN2ZH.

En traduction chinois-japonais, JA2ZH et EN2ZH fonctionnent nettement mieux que ZH2JA et ZH2EN, ce qui indique que WeLM est meilleur pour comprendre les langues étrangères que pour les générer. Comparé à XGLM, WeLM fonctionne bien dans deux tâches de traduction où la langue cible est le chinois.

WeLM fonctionne mal sur la tâche ZH2JA en raison de la rareté du texte japonais dans le corpus de pré-formation. L'expérience a prouvé que WeLM commet souvent des erreurs grammaticales ou s'écarte des phrases sources lors de la génération de longs textes japonais.

Cependant, WeLM a très bien fonctionné lors de la traduction du japonais et de l’anglais vers le chinois. Même la version 1,3B de WeLM surpasse considérablement la version 7,5B de XGLM, mais avec seulement un sixième des paramètres.

Les questions et réponses multilingues consistent à répondre à des questions dans différentes langues, ce qui peut aider les gens à mieux obtenir des informations sur Internet. WeLM a été testé sur les ensembles de données XQuAD et MLQA et a bien fonctionné.

Quel impact cela aura-t-il sur le modèle linguistique pré-entraîné si le contexte, les questions et les réponses sont utilisées dans différentes langues ?

Les résultats montrent que l'utilisation du langage principal comme indice améliore les performances du modèle. Pendant ce temps, WeLM surpasse XGLM dans tous les cas. WeLM fonctionne mieux lors de l'utilisation de questions chinoises.

La synthèse de texte multilingue vise à résumer le texte saisi dans différentes langues. WeLM fonctionne mieux que XGLM sur l'ensemble de données NCLS, mais est moins performant sur zéro échantillon.

Le changement de code se produit lorsqu'un locuteur alterne entre deux ou plusieurs langues ou variétés de langues.

En chinois moderne, des mots anglais ou japonais apparaissent souvent, donc comprendre un texte codé est une compétence utile pour de nombreuses tâches de traitement du langage naturel chinois.

WeLM peut comprendre correctement le texte à code commuté. Par exemple, dans les exemples de génération de dialogue et de transfert de style arbitraire, nous modifions un mot chinois en mot anglais correspondant, et WeLM peut toujours comprendre l'énoncé et produire la réponse correcte.

WeLM est un modèle d'IA capable de traduire correctement le japonais et l'anglais et combinant la connaissance de plusieurs langues. Cela peut être dû au fait que la présence de plusieurs langues et de langues mixtes dans le corpus de pré-formation permet à WeLM d'explorer l'alignement multilingue pour réduire la perte de formation.

Des recherches ont montré que le rapport de mélange des langues a un impact sur les performances des modèles linguistiques. Au cours du processus de pré-formation, lorsque le ratio anglais/chinois a été ajusté à 1 % et 25 %, les performances du modèle n'étaient pas aussi bonnes que le modèle actuel de 13 % d'anglais et 87 % de chinois.

Dans la tâche chinoise, le modèle mélangé à 13 % de texte anglais a donné les meilleurs résultats , probablement parce que les mots anglais apparaissent souvent dans l'ensemble de données chinois. Dans les tâches en anglais, trop de connaissances en chinois ne sont pas requises et il est préférable de se concentrer sur l'absorption des connaissances en anglais.

‍‍‍

05

Formation rapide multitâche

En écrivant manuellement des invites, WeLM a été formé sur l'ensemble de données mixtes étiquetés, et le modèle WePrompt a été obtenu et testé sur des tâches non incluses dans la phase de formation. L'apprentissage multitâche explicite peut adapter WeLM non supervisé à différentes tâches.

WeLM utilise un modèle de langage non supervisé amélioré qui fonctionne mieux sous différents signaux.

ensemble de données de formation

La création de l'ensemble de données de formation se compose de deux étapes :

(1) Sélectionnez un ensemble différent de tâches PNL chinoises étiquetées ;

(2) Créez plusieurs invites, chacune avec une formulation différente pour chaque tâche.

Un indice est un modèle qui convertit un échantillon étiqueté en une phrase naturelle.

Les invites sont créées par un annotateur interne à l'aide de l'interface graphique Web BigScience 11.

L'annotateur doit être ouvert dans son style afin que le modèle affiné puisse devenir plus robuste avec différents modes d'indication.

Un exemple d’invite est présenté ci-dessous.

b0810d98b26723c9001ceb291d73253b.png

Pour la tâche NLI, des invites ont été créées sous la forme d'une tâche de classification à choix multiples sur les trois relations, ou sous la forme d'une tâche de classification binaire sur une seule relation.

Un aperçu complet des 76 tâches (76 tâches réparties en 14 catégories créant 1 227 invites d'écriture manuelle) est présenté dans la figure. L'ensemble de données retenu utilisé pour l'évaluation est affiché en violet et l'ensemble de données jaune restant est utilisé pour la formation. Les 76 tâches ont été vérifiées à plusieurs reprises et n’ont pas été incluses dans le corpus de pré-formation de WeLM.

WePrompt excelle dans les performances sans échantillon et affinées, étant capable de surpasser les modèles 23 fois plus grands que l'Ernie 3.0 Titan dans la plupart des tâches.

WePrompt est un modèle qui peut générer automatiquement des invites pour diverses tâches sans aucune annotation manuelle.

Dans une évaluation forte zéro-shot, WePrompt exclut toutes les tâches de la même catégorie que les données de test pendant la formation pour tester sa capacité de généralisation à de nouvelles tâches.

Les résultats montrent que WePrompt surpasse WeLM à échantillon nul et Ernie 3.0 Titan sur la plupart des données de test et est capable de produire moins de réponses hors plage. La formation à plusieurs invites aide le modèle à comprendre le modèle général des invites.

Parmi eux, WeLM à échantillon nul ne peut pas comprendre correctement le sujet de la question, tandis que WePrompt à échantillon nul fort peut comprendre correctement le sens de la question même si la réponse est fausse.

La méthode d'évaluation faible à échantillon nul du modèle WePrompt : c'est-à-dire que lors de la formation de WePrompt, seules les tâches auxquelles appartiennent les données de test sont exclues. Les résultats montrent que WePrompt à tir zéro faible fonctionne mieux que WePrompt à tir zéro fort sur la plupart des tâches, mais fonctionne mal sur les tâches PD et IFLYTEK.

Les responsables pensent que cela peut être dû aux similitudes entre la modélisation linguistique et les tâches de remplissage.

De plus, l'amélioration de WePrompt dans les tâches de questions et réponses à livre fermé n'est pas évidente, car de telles tâches sont fréquemment apparues dans le corpus de pré-formation.

06

Autres évaluations de compétences

Le responsable a également fourni une évaluation des trois autres capacités de WeLM :‍

  1. Explicabilité : si WeLM est capable d'expliquer ses décisions en fournissant des explications, et si les explications peuvent améliorer les performances du modèle. 

  2. Self-Calibration Self_Calibration : Indique si WeLM peut calibrer ses résultats de prédiction en se demandant de déterminer si la prédiction est correcte. 

  3. Mémorisation : dans quelle mesure WeLM est-il capable de mémoriser le contenu du corpus pré-entraîné et comment la fréquence affecte sa mémoire.

explicite

L’interprétabilité des réseaux de neurones profonds est une caractéristique très importante, et un manque d’interprétabilité rend difficile la confiance dans ses prédictions.

Des recherches récentes ont montré que de grands modèles linguistiques pré-entraînés peuvent générer des prédictions et des explications moyennant des instructions appropriées.

ec0109660038b0abebc89457a57daaf6.png

La figure ci-dessus teste si WeLM peut produire des explications raisonnables en ajoutant des instructions sur trois tâches et révèle que l'ajout d'instructions peut généralement améliorer les performances, mais que le degré d'amélioration est instable et fortement dépendant de la tâche et des instructions fournies.

Sur CMNLI, 11-B WeLM fonctionne encore moins bien lorsqu'il fournit des instructions supplémentaires. Sur OCNLI, la version 2.7-B WeLM est moins performante, mais les autres versions fonctionnent mieux. Dans l'exemple donné, nous pouvons voir que WeLM peut imiter le style donné dans l'invite, produisant des explications raisonnables pour ses prédictions.

auto-étalonnage

L'auto-étalonnage fait référence aux résultats de prédiction du modèle calibré.

Par exemple, une fois que le modèle a fourni des prédictions, nous pouvons fournir des informations supplémentaires pour vérifier son exactitude. WeLM peut apporter différentes réponses en fonction de différents résultats de prédiction du modèle. Cette approche permet de vérifier si le comportement et le raisonnement du modèle sont exacts.

1f4782216cda7d4010dd46962a4a1aaa.png

Les modèles WeLM peuvent améliorer leurs capacités prédictives grâce à l'auto-étalonnage. Il est capable de faire la distinction entre ses propres prédictions correctes et incorrectes et réussit bien à identifier les textes contenant des mots grossiers.

mémoire

Sur la base de la pré-formation de WeLM sur le contenu réseau à grande échelle, sa capacité de mémoire a été testée et il a été constaté que le modèle pouvait mémoriser certains contenus, mais la proportion n'était pas élevée.

Les modèles plus grands peuvent généralement mémoriser davantage de données dans toutes les sources de données . Le contenu d’analyse commune occupe plus de la moitié des données de formation, ce qui permet à WeLM de mieux s’en souvenir.

dc33a304dd3c12894d81b3a2e5fe4252.png

L'écriture académique est la plus difficile à mémoriser en raison de sa faible fréquence et du style unique des données de formation. Dans le même temps, le modèle peut mieux mémoriser le texte qui apparaît plus fréquemment.

Le modèle ne peut mémoriser que le contenu textuel qui apparaît une seule fois et ne peut pas mémoriser trop de contenu.

07

Résumer

WeLM est un modèle linguistique pré-entraîné pour le chinois qui peut effectuer de manière transparente différents types de tâches sans aucune ou peu de démonstration.

Il fonctionne bien sur les tâches monolingues (chinois) et multilingues (chinois-anglais/japonais), surpassant les modèles pré-entraînés existants de taille similaire.

L’équipe WeChat a collecté des données pour un large ensemble d’ensembles de données supervisés chinois à l’aide d’invites écrites par des humains et a affiné WeLM grâce à une formation multi-indices. Le modèle résultant est capable de réaliser une forte généralisation sur des types de tâches invisibles et de surpasser WeLM non supervisé dans l'apprentissage sans exemple.

Et WeLM possède les compétences de base pour expliquer et calibrer ses propres décisions.

Récemment, les grands fabricants ont sorti leurs propres modèles, mais Tencent n'a vu aucune nouvelle pertinente. Après l'avoir parcouru, j'ai trouvé ce modèle WeChat WeLM, qui est très discret. Non seulement il est discret, mais il n'a pas été mis à jour depuis près d'un an. ‍‍‍‍

Personnellement, je suppose que la direction des grands modèles a été arrêtée au sein de Goose Factory. Est-ce que quelqu'un de bien informé connaît les détails ? ‍‍‍‍‍

Adresse de référence‍‍

https://arxiv.org/abs/2209.10372

https://welm.weixin.qq.com/docs/tutorial/

Recommandations de lecture :

Recherche sur les hallucinations des grands modèles de langage | Atténuer et éviter les hallucinations des grands modèles LLM (2)

Le chant des sirènes dans l'océan de l'intelligence artificielle : un examen de la recherche sur les hallucinations dans le cadre du LLM sur les grands modèles linguistiques (1)

Bonjour, je suis Baichuan Big Model|Le secret de Baichuan2, qui est open source et gratuit pour une utilisation commerciale en Chine

Lei Jun : 99 % des questions ont des réponses standard. Trouvez quelqu'un qui sait et posez la question.

Qu'est-ce que « l'émergence de l'intelligence » de l'IA et pourquoi sa compréhension est d'une grande valeur pour les entrepreneurs, les praticiens et les gens ordinaires

Une attaque rapide attaque à nouveau les grands modèles, ChatGPT hypnotisé peut divulguer des informations importantes - risques cachés des grands modèles

L’intelligence artificielle est-elle sûre ? OpenAI «aligne» les grands modèles sur les humains - garantissant que ChatGPT est plus intelligent que les humains tout en suivant les intentions humaines

RÉAGIR : collaborer au raisonnement et à l'action dans des modèles de langage, leur permettant de résoudre une variété de tâches de raisonnement et de prise de décision linguistiques.

Embrassez l’avenir et acquérez des compétences en IA ! Suivez-moi et recevez des ressources d'apprentissage gratuites sur l'IA.

Je suppose que tu aimes

Origine blog.csdn.net/fogdragon/article/details/132820302
conseillé
Classement