PTM de l'IA : Résumé et progrès de la technologie du modèle de pré-formation (mise à jour)

PTM de l'IA : Résumé et progrès de la technologie du modèle de pré-formation (mise à jour)

Table des matières

Technologie de modèle pré-entraîné

1. Le domaine émergent de la recherche systématique sur le développement et l'impact des modèles intelligents à très grande échelle a été formé

(1), OpenAI propose des méthodes de construction de jeux de données PALMS et de mise au point de modèles

(2), Percy Liang, Li Feifei et d'autres chercheurs ont proposé le concept de modèle de base

(3), DeepMind a publié un article sur l'évaluation des risques sociaux des modèles linguistiques

2. Le concours de recherche et développement de modèles de pré-formation à très grande échelle est entré dans une phase féroce

(1), Google a développé un modèle de pré-formation à l'échelle d'un billion Switch Transformer

(2), Zhiyuan lance le modèle intelligent Enlightenment 1.0/2.0 à très grande échelle

(3), Microsoft et Nvidia ont publié le modèle de pré-formation Megatron-Turing

(4), DeepMind a publié le modèle de pré-formation Gopher

(5) D'autres entreprises continuent de développer des modèles de préformation à très grande échelle

3. Le modèle de pré-formation multimodal est devenu le prochain domaine clé de développement pour les grands modèles

(1), OpenAI propose des modèles de préformation multimodaux à grande échelle DALL E et CLIP

(2) L'Université hébraïque d'Israël a proposé StyleCLIP, un modèle graphique haute définition pour Vincent

(3), Zhiyuan, Tsinghua et d'autres chercheurs ont proposé le modèle de graphe de Vincent CogView

(4), les chercheurs de Facebook ont ​​proposé un modèle unifié multitâche et multimodal UniT

(5), Tsinghua et d'autres chercheurs ont proposé un modèle d'apprentissage rapide intermodal CPT

(6), des chercheurs de Microsoft Asia Research Institute et de l'Université de Pékin ont proposé un modèle de pré-formation NÜWA (Nuwa) couvrant trois données modales

4. Accélérer l'innovation des méthodes pour améliorer l'efficacité de la formation des modèles à très grande échelle de paramètres

(1) En janvier 2021, des chercheurs comme Microsoft ont proposé la technologie d'entraînement hétérogène ZeRO-Offload

(2) En mars 202, les chercheurs de Zhiyuan et Tsinghua ont développé conjointement le système d'accélération FastMoE

(3) En septembre 2021, les chercheurs de Zhiyuan et Tsinghua ont développé conjointement le système d'accélération BMInf

(4) En octobre 2021, Microsoft et Nvidia ont proposé conjointement la méthode d'accélération PTD-P

5. Le modèle de pré-formation est appliqué dans des scénarios tels que la recherche biologique et Internet

(1), en mai 2021, Google a proposé un modèle unifié multi-tâches MUM

(2), En juin 2021, des chercheurs tels que l'Université Tsinghua et Zhiyuan ont proposé le modèle de langage de base chinois CPM

(3), En août 2021, des chercheurs tels que Zhiyuan et l'Université Tsinghua ont proposé le modèle de pré-formation de protéines ProteinLM


Technologie de modèle pré-entraîné

1. Le domaine émergent de la recherche systématique sur le développement et l'impact des modèles intelligents à très grande échelle a été formé

Avec la montée en puissance de très grands modèles tels que BERT, GPT-3 et DALL E, le schéma d'adaptation de " l'apprentissage auto-supervisé + le réglage fin des modèles pré-formés " est progressivement devenu le courant dominant. Cependant, comme le modèle de préformation à très grande échelle joue un rôle de plus en plus important dans la recherche scientifique, l'industrie, la société, l'économie et d'autres domaines, son impact considérable est devenu le centre d'attention des scientifiques.

(1), OpenAI propose des méthodes de construction de jeux de données PALMS et de mise au point de modèles

En juin 2021, OpenAI a proposé une méthode de construction d'ensembles de données et d'ajustement de modèle appelée "PALMS", qui peut construire des "Values-Targeted Datasets" (Values-Targeted Datasets), afin qu'il puisse corriger le biais GPT-3 et résoudre le Le problème des questions éthiques posées par les grands modèles a joué un rôle moteur.

Source : https://cdn.openai.com/palms.pdf

(2), Percy Liang, Li Feifei et d'autres chercheurs ont proposé le concept de modèle de base

En août 2021, des universitaires tels que Percy Liang et Li Feifei ont nommé le modèle de pré-formation à grande échelle comme modèles de fondation et ont écrit un article sur les opportunités et les défis auxquels le modèle de fondation est confronté. La thèse est divisée en quatre parties, exposant respectivement les capacités, les domaines d'application, les aspects techniques et l'impact social du modèle de base.

Source : https://arxiv.org/pdf/2108.07258.pdf

(3), DeepMind a publié un article sur l'évaluation des risques sociaux des modèles linguistiques

En décembre 2021, DeepMind a publié un article sur les risques éthiques et sociaux des modèles linguistiques pré-entraînés. Les chercheurs ont principalement exploré les effets néfastes du modèle sous six aspects et ont mentionné deux aspects des impacts éthiques et sociaux auxquels les chercheurs doivent continuer à prêter attention. La première est que les outils d'analyse comparative actuels sont insuffisants pour évaluer certains risques éthiques et sociétaux. Par exemple, lorsqu'un modèle de langage génère de fausses informations, les humains pensent que ces informations sont vraies. L'évaluation de ce danger nécessite une interaction plus humaine avec les modèles de langage. Deuxièmement, la recherche sur la maîtrise des risques est encore insuffisante . Par exemple, les modèles linguistiques apprennent, reproduisent et amplifient les préjugés sociaux, mais la recherche sur cette question en est encore à ses débuts.

Légende : Les risques éthiques et sociaux des six principaux modèles de langage étudiés dans l'article DeepMind

来源Modélisation du langage à grande échelle : Gopher, considérations éthiques et récupération

2. Le concours de recherche et développement de modèles de pré-formation à très grande échelle est entré dans une phase féroce

L'avènement du GPT-3 a inspiré les chercheurs à explorer des modèles de pré-formation à très grande échelle avec une plus grande échelle et des performances plus étonnantes . Les institutions de recherche scientifique à grande échelle et les entreprises nationales et étrangères ont investi d'énormes quantités de puissance de calcul dans la recherche et le développement, poussant l'échelle de la puissance de calcul à des milliards d'échelles et explorant les paramètres, les performances et les limites générales de capacité de tâche du modèle. À l'heure actuelle, des institutions de R&D et des entreprises telles que OpenAI, Google, FaceBook, Microsoft, Nvidia, Zhiyuan Research Institute, Alibaba Dharma Institute, Huawei, Baidu et Inspur ont rejoint la "course aux armements".

(1), Google a développé un modèle de pré-formation à l'échelle d'un billion Switch Transformer

En janvier 2021, les chercheurs de Google ont développé un nouveau modèle de langage Switch Transformer, qui contient 1,6 billion de paramètres , soit neuf fois celui de GPT-3, qui contient 175 milliards de paramètres. Les chercheurs ont comparé Switch Transformer avec les modèles T5-Base et T5-Large de Google, et les résultats ont montré qu'avec les mêmes ressources informatiques, le nouveau modèle a atteint une augmentation de la vitesse de pré-formation jusqu'à 7 fois .

Légende : Structure du bloc de codage du transformateur de commutation

(2), Zhiyuan lance le modèle intelligent Enlightenment 1.0/2.0 à très grande échelle

Le 20 mars 2021, l'Institut de recherche de Zhiyuan a publié le premier modèle d'information intelligent à très grande échelle de Chine " Enlightenment 1.0 ", formé une série de modèles comprenant le chinois, le multimodal, la cognition et la prédiction des protéines, et pré-formé le modèle Un certain nombre de des percées technologiques de classe mondiale ont été réalisées en termes de paradigme, d'échelle et de technologie d'amplification des performances, et de construction de bases de données de corpus de formation. Le 1er juin, l'Institut de recherche Zhiyuan a publié le modèle " Enlightenment 2.0 " , avec une échelle de paramètres de  1,75 billion , 10 fois celle de GPT-3, battant le record de paramètres de 1,6 billion créé par  le modèle de pré-formation Switch Transformer , et le premier en Chine Modèles à l'échelle d'un billion .

Légende : Innovations technologiques dans Enlightenment 2.0

(3), Microsoft et Nvidia ont publié le modèle de pré-formation Megatron-Turing

En octobre 2021, Microsoft et Nvidia ont lancé le modèle de pré-formation Megatron-Turing (MT-NLP). Le modèle est une version de nouvelle génération du modèle T-NLG (Turing-NLG) et NVIDIA Megatron-LM de Microsoft , contenant  530 milliards de paramètres . Les chercheurs ont sélectionné 8 tâches dans cinq domaines pour évaluer l'effet de MT-NLG. Dans les expériences, le modèle atteint les meilleures performances sur certaines de ces tâches. 

Légende : L'ensemble de données utilisé par le modèle MT-NLG

Légende : performances MT-NLG dans différentes tâches dans des conditions d'échantillon zéro, d'échantillon unique et de petit échantillon

(4), DeepMind a publié le modèle de pré-formation Gopher

En décembre 2021, DeepMind a publié le modèle de langage pré-entraîné Gopher avec une échelle de paramètres de 280 milliards . Le modèle est formé avec  4096 puces d'accélération TPUv3 et combiné avec plusieurs stratégies d'accélération parallèles . Cette recherche est principalement utilisée pour explorer les avantages et les inconvénients des modèles de différentes tailles et pour comprendre dans quels domaines de meilleures performances peuvent être obtenues après l'augmentation de la taille des paramètres du modèle. Les chercheurs ont constaté que l'augmentation de la taille du modèle a considérablement amélioré des tâches telles que la compréhension de la lecture , la vérification des faits et l'identification de la parole toxique , mais l' amélioration du raisonnement logique et des tâches de bon sens n'est pas significative . En outre, les chercheurs ont également étudié les capacités et les lacunes du modèle Gopher dans des domaines tels que le dialogue.

Légende : performances de Gopher et d'autres modèles dans différentes catégories sur le benchmark Massive Multitask Language Understanding (MMLU)

来源Modélisation du langage à grande échelle : Gopher, considérations éthiques et récupération

(5) D'autres entreprises continuent de développer des modèles de préformation à très grande échelle

En plus des cas ci-dessus, en avril 2021, Huawei Cloud Combined Cycle Intelligence a publié le  modèle de langage de pré-formation à très grande échelle Pangu NLP avec une échelle de paramètres de  100 milliards et a publié conjointement le modèle de pré-formation à très grande échelle Pangu α . -modèle de formation avec une échelle de paramètres de 200  ; milliards a publié le modèle de langue de pré-formation chinoise  PLUG avec 27 milliards de paramètres , et conjointement avec l'Université de Tsinghua a publié le modèle de pré-formation multimodal chinois  M6 avec une échelle de paramètres de  100 milliards , qui a dépassé 10 trillions de paramètres ;

En juillet, Baidu a lancé le modèle d'amélioration des connaissances ERNIE 3.0  avec une échelle de paramètres de dizaines de milliards ;

En octobre, Inspur a publié environ 250 milliards de modèles de pré-formation à très grande échelle ;

En décembre, Baidu a lancé  le modèle ERNIE 3.0 Titan  avec une échelle de paramètres de  260 milliards ; Google a formé un modèle  BERT géant avec une échelle de paramètres de 481 milliards  , et les résultats ont été publiés sur la liste de formation MLPerfv1.1 ; en outre, Google a également a proposé  un modèle de paramètres de 1,2 trillion Le modèle général de langage clairsemé  GLaM surpasse GPT-3 dans 7 domaines d'apprentissage à petite échelle.

3. Le modèle de pré-formation multimodal est devenu le prochain domaine clé de développement pour les grands modèles

Avec le support du big data , de grands paramètres et d'une grande puissance de calcul , le modèle de pré-formation peut parfaitement apprendre la représentation dans le texte et maîtriser certaines connaissances. Si le modèle peut apprendre des données de plusieurs modalités, il aura de meilleures performances dans les tâches de langage visuel telles que la génération de texte d'image et la réponse aux questions basée sur l'image. Le modèle de pré-formation multimodal est une direction de recherche clé en 2021. Des institutions telles que OpenAI, Microsoft, Zhiyuan, l'Université Tsinghua et l'Institut d'automatisation de l'Académie chinoise des sciences ont publié des modèles de pré-formation multimodaux .

(1), OpenAI propose des modèles de préformation multimodaux à grande échelle DALL E et CLIP

En janvier, OpenAI a publié simultanément deux modèles de pré-formation multimodaux à grande échelle - DALL·E  et CLIP . DALL·E peut générer des images correspondantes basées sur des invites textuelles courtes (telles qu'une phrase ou un paragraphe de texte) , et CLIP peut classer les images en fonction d' invites textuelles . OpenAI a déclaré que l'objectif du développement d'un grand modèle multimodal est de franchir les limites du traitement du langage naturel et de la vision par ordinateur et de réaliser un système d'intelligence artificielle multimodal.

Légende : "Chaise en forme d'avocat" générée par DALL·E

Légende : Le modèle CLIP a atteint d'excellents niveaux dans plusieurs tests ImageNet

(2) L'Université hébraïque d'Israël a proposé StyleCLIP, un modèle graphique haute définition pour Vincent

En mars, l'Université hébraïque d'Israël, l'Adobe Research Institute, etc. ont combiné les modèles StyleGAN et CLIP pour proposer un modèle capable de générer des images haute définition basées sur des invites de texte, appelé StyleCLIP. Les chercheurs pensent que StyleCLIP peut combiner les connaissances sémantiques acquises par le modèle de pré-formation et la capacité de génération d'images du réseau de confrontation générative pour créer des images plus réalistes, ce qui présente certains avantages dans les applications pratiques.

Légende : processus de traitement d'image de StyleCLIP

Légende : Résultats de l'opération Image PS basés sur des invites textuelles

Source : https://arxiv.org/pdf/2103.17249.pdf

(3), Zhiyuan, Tsinghua et d'autres chercheurs ont proposé le modèle de graphe de Vincent CogView

En mai, des chercheurs de l'Institut de recherche Zhiyuan, de l'Université Tsinghua et de l'Institut Ali Dharma ont publié un article sur le modèle de graphe CogView Vincent, qui combine VQ-VAE avec un modèle Transformer avec 4 milliards de paramètres, grâce à l'apprentissage du style, image ultra-haute définition génération, réglage fin de plusieurs tâches en aval telles que le tri texte-image et la conception de mode, et utilisation de méthodes de pré-formation stables telles que la suppression des pertes de NaN. Les résultats expérimentaux montrent que CogView obtient les résultats FID les plus élevés sur l'ensemble de données fuzzed MS COCO, ce qui est supérieur aux précédents GAN et DALL·E.

Légende : architecture CogView

Légende : CogView génère des images en fonction des invites

(4), les chercheurs de Facebook ont ​​proposé un modèle unifié multitâche et multimodal UniT

En août, l'équipe de recherche de Facebook a proposé un modèle de transformateur unifié multitâche et multimodal appelé UniT, qui repose sur une architecture unifiée Transformer Encoder-Decoder capable de résoudre simultanément une série de tâches dans les domaines de la vision, de la multimodalité , et le langage, y compris la détection d'objets, le raisonnement visuel-texte, la compréhension du langage naturel, etc. Le document a déclaré que le modèle a de bonnes performances sur 7 tâches.

Légende : une liste des données que le modèle UniT peut apprendre et les tâches qu'il accomplit

Légende : architecture du modèle UniT

(5), Tsinghua et d'autres chercheurs ont proposé un modèle d'apprentissage rapide intermodal CPT

En septembre, des chercheurs de l'Université de Tsinghua et de l'Université nationale de Singapour ont proposé un modèle d'apprentissage de signaux intermodal CPT, qui utilise la couleur pour affiner le modèle de pré-formation intermodal basé sur l'apprentissage de signaux et apprend quelques fois le positionnement visuel. et les tâches de génération de graphes de scène. Par rapport au modèle de base, la scène a réalisé une amélioration significative.

Légende : cadre d'apprentissage rapide intermodal CPT

(6), des chercheurs de Microsoft Asia Research Institute et de l'Université de Pékin ont proposé un modèle de pré-formation NÜWA (Nuwa) couvrant trois données modales

En novembre, des chercheurs du Microsoft Asia Research Institute et de l'Université de Pékin ont proposé un modèle de pré-formation multimodal unifié NÜWA. Le modèle utilise une architecture 3D Transformer capable de générer des informations visuelles (image ou vidéo). En testant le modèle sur 8 tâches en aval, le modèle Nuwa obtient les meilleures performances sur des tâches telles que le graphe de Vincent, la vidéo Vincent et la prédiction vidéo.

Légende : Tâches en aval prises en charge par le modèle Nuwa

Légende : La structure du modèle Nuwa

4. Accélérer l'innovation des méthodes pour améliorer l'efficacité de la formation des modèles à très grande échelle de paramètres

Limités par les ressources de puissance de calcul, la formation et le raisonnement de modèles pré-formés à très grande échelle sont confrontés à de sérieux goulots d'étranglement. Dans les recherches de GShard et Switch Transformer, Google a adopté Mixture of Experts (MoE) et introduit plusieurs réseaux d'experts (Expert Network) dans le réseau de neurones pour réduire le nombre de neurones à activer et améliorer le calcul du modèle. , augmentant les paramètres du modèle de langage pré-entraîné à une échelle de mille milliards.

Légende : L'architecture de MoE utilise la fonction de gating sparse (Sparse Gating Function) pour déterminer le réseau expert pour effectuer les calculs

Source : https://arxiv.org/pdf/1701.06538.pdf

(1) En janvier 2021, des chercheurs comme Microsoft ont proposé la technologie d'entraînement hétérogène ZeRO-Offload

Avec l'augmentation de l'échelle des paramètres du modèle de pré-formation à très grande échelle, des méthodes d'accélération et d'optimisation du calcul de modèle à plus grande échelle ont émergé cette année, en se concentrant sur l'amélioration de l'efficacité de calcul du modèle. En janvier, des chercheurs de Microsoft et de l'Université de Californie, Merced (Université de Californie, Merced) ont proposé une technologie de formation d'apprentissage en profondeur hétérogène appelée "ZeRO-Offload", qui peut utiliser le même matériel pour former un modèle 10x à plus grande échelle. Sur un GPU V100 avec 32 Go de RAM, les utilisateurs peuvent former GPT-2 avec 13 milliards de paramètres via le déchargement ZeRO ; sur un seul serveur DGX-2, le déchargement ZeRO peut former un modèle avec plus de 70 milliards de paramètres, basé sur le matériel d'origine A Une augmentation de 4,5 fois la taille du modèle est obtenue.

(2) En mars 202, les chercheurs de Zhiyuan et Tsinghua ont développé conjointement le système d'accélération FastMoE

En raison de la liaison de la technologie MoE et du matériel et des logiciels de Google, elle ne peut pas être directement appliquée aux cadres d'algorithmes open source tels que PyTorch. Afin de résoudre ce problème, en mars, l'Institut de recherche Zhiyuan et l'Université Tsinghua ont développé conjointement un système d'accélération appelé FastMoE, qui permet aux utilisateurs ordinaires d'utiliser directement le module MoE en réécrivant le code. Par rapport à la version originale, FastMoE réalise une optimisation 47 fois plus rapide. Le système FastMoE peut être utilisé comme module dans un réseau PyTorch, ou il peut être utilisé pour transformer une couche dans un réseau existant. Les utilisateurs n'ont besoin que de quelques lignes de code pour appeler le module MoE. FastMoE prend également en charge n'importe quel module de réseau neuronal en tant que réseau expert et inclut des codes CUDA spécialement optimisés, tirant pleinement parti des capacités de calcul parallèle à grande échelle du GPU.

Légende : Comment appeler le code FastMoE

Source : GitHub - laekov/fastmoe : une implémentation MoE rapide pour PyTorch

Légende : comparaison des performances de FastMoE et de PyTorch d'origine

Légende : Mode parallèle de données de FastMoE

Source : Zhiyuan x Tsinghua open source FastMoE, la pierre angulaire du modèle d'IA à mille milliards

(3) En septembre 2021, les chercheurs de Zhiyuan et Tsinghua ont développé conjointement le système d'accélération BMInf

Les grands modèles pré-formés ont obtenu des résultats étonnants dans divers domaines, mais l'application de grands modèles a un seuil élevé de puissance de calcul et une longue vitesse de réponse du modèle. En septembre, les chercheurs de l'Université de Tsinghua et de Zhiyuan ont publié conjointement la boîte à outils d'inférence de grands modèles à faibles ressources BMInf, qui peut également effectuer une inférence efficace de dizaines de milliards de grands modèles sur des cartes graphiques grand public.

Légende : Comparaison des performances de BMInf et de PyTorch d'origine

来源GitHub - OpenBMB/BMInf : inférence efficace pour les gros modèles

(4) En octobre 2021, Microsoft et Nvidia ont proposé conjointement la méthode d'accélération PTD-P

En octobre, Microsoft et Nvidia ont proposé conjointement la méthode d'accélération de la formation PTD-P (Inter-node Pipeline Parallelism, Intra-node Tensor Parallelism, and Data Parallelism), via "l'approche à trois volets" du parallélisme des données, du parallélisme des tenseurs et du parallélisme des pipelines. De cette façon, le débit du modèle peut être augmenté de plus de 10 %. Cette méthode parallèle peut former un modèle d'architecture GPT avec un trillion de paramètres sur 3072 GPU avec une puissance de calcul de 502P, obtenant une amélioration des performances de 52 par débit GPU. Grâce à cette technologie, Microsoft et Nvidia ont formé Megatron-Turing, un modèle de langage pré-formé à très grande échelle avec 530 milliards de paramètres, sur plus de 3 000 GPU.

Légende : L'échelle des paramètres et le niveau de performance atteint lors de l'entraînement du modèle avec la technologie PTD-P

Source : https://arxiv.org/pdf/2104.04473.pdf

5. Le modèle de pré-formation est appliqué dans des scénarios tels que la recherche biologique et Internet

Avec l'expansion progressive de l'échelle des données et l'enrichissement supplémentaire de la modalité de données, le modèle de pré-formation pénétrera dans plus de domaines et accomplira divers types de tâches grâce au paradigme "pré-formation-réglage". Dans le domaine de la recherche scientifique, le modèle de pré-formation sera combiné avec des données sur le terrain pour devenir un "modèle de base" pour effectuer des tâches en aval, contribuant à produire davantage de découvertes de recherche scientifique. Dans le domaine industriel, pour des scénarios de prise de décision intelligente plus complexes, une pré-formation basée sur diverses données Internet, de grands modèles avec des capacités de prise de décision peuvent être au centre du prochain développement.

(1), en mai 2021, Google a proposé un modèle unifié multi-tâches MUM

En mai, Google a publié le modèle unifié multitâche (MUM) lors de la conférence IO 2021.

situation de développement. Le modèle MUM peut comprendre 75 langues et a été pré-entraîné avec une grande quantité de données de pages Web. Il est bon pour comprendre et répondre à des problèmes de prise de décision complexes, et peut trouver des informations à partir de données de pages Web multimodales multilingues. Il peut être utilisé dans des scénarios Internet tels que le service client, les questions-réponses et le marketing. A une valeur d'application.

Légende : Le modèle MUM peut rechercher des stratégies de voyage correspondantes à partir d'informations de pages Web provenant de plusieurs sources en fonction des questions des utilisateurs.

来源MUM : une nouvelle étape de l'IA pour comprendre l'information

(2), En juin 2021, des chercheurs tels que l'Université Tsinghua et Zhiyuan ont proposé le modèle de langage de base chinois CPM

En juin, l'Université Tsinghua, Zhiyuan et d'autres chercheurs ont dévoilé CPM, un modèle de pré-formation multilingue avec le chinois comme noyau, lors de la conférence Zhiyuan de Beijing. Par rapport au modèle de pré-formation open source existant, les performances globales des sept langages machine les tests de capacité, y compris les tests inter-langues, la génération et la généralisation, sont nettement meilleurs. Le modèle CPM-2 téléchargeable publiquement est divisé en 3 versions différentes : modèle chinois à 11 milliards de paramètres, modèle chinois-anglais à 11 milliards de paramètres et modèle MoE chinois-anglais à 198 milliards.

Légende : Les performances du modèle CPM dans les tâches en aval

Source : https://arxiv.org/pdf/2106.10715.pdf

(3), En août 2021, des chercheurs tels que Zhiyuan et l'Université Tsinghua ont proposé le modèle de pré-formation de protéines ProteinLM

En août, l'équipe Wudao du Zhiyuan Research Institute, en collaboration avec l'Université Tsinghua et Tencent Quantum Lab, a proposé un modèle de pré-formation de protéines ProteinLM, qui a des modèles open source avec une échelle de 200 millions et 3 milliards de paramètres. Le modèle prend en charge la prédiction de la structure secondaire des protéines, la prédiction de la fluorescence, la prédiction du contact, la prédiction de la stabilité du repliement et les tâches de détection d'homologie à distance. Par rapport au modèle de base TAPE (38 millions de paramètres), ProteinLM a amélioré les performances sur les tâches en aval, en particulier dans la prédiction du repliement des protéines, et le modèle s'est amélioré de 39 % par rapport au modèle de base.

Légende : Performances du modèle ProteinLM dans les tâches en aval

Source : GitHub - BAAI-WuDao/ProteinLM : Modèle de langage protéique

Je suppose que tu aimes

Origine blog.csdn.net/qq_41185868/article/details/131160863
conseillé
Classement