PTM de AI: resumen y progreso de la tecnología del modelo de preentrenamiento (actualización)

PTM de AI: resumen y progreso de la tecnología del modelo de preentrenamiento (actualización)

Tabla de contenido

Tecnología de modelos preentrenados

1. Se ha formado el campo emergente de la investigación sistemática sobre el desarrollo y el impacto de los modelos inteligentes a gran escala.

(1), OpenAI propone la construcción de conjuntos de datos PALMS y métodos de ajuste fino del modelo

(2), Percy Liang, Li Feifei y otros académicos propusieron el concepto de modelo básico

(3), DeepMind publicó un artículo sobre la evaluación del riesgo social de los modelos lingüísticos

2. La competencia de investigación y desarrollo del modelo de preentrenamiento a gran escala ha entrado en una etapa feroz

(1), Google desarrolló un modelo de preentrenamiento Switch Transformer a escala de un billón

(2), Zhiyuan lanza el modelo inteligente a gran escala Enlightenment 1.0/2.0

(3), Microsoft y Nvidia lanzaron el modelo de pre-entrenamiento Megatron-Turing

(4), DeepMind lanzó el modelo de pre-entrenamiento Gopher

(5) Otras compañías continúan desarrollando modelos de pre-entrenamiento a gran escala

3. El modelo de preentrenamiento multimodal se ha convertido en la próxima área clave de desarrollo para modelos grandes.

(1), OpenAI propone modelos de preentrenamiento multimodal a gran escala DALL E y CLIP

(2) La Universidad Hebrea de Israel propuso StyleCLIP, un modelo gráfico de alta definición para Vincent

(3), Zhiyuan, Tsinghua y otros investigadores propusieron el modelo gráfico Vincent CogView

(4), los investigadores de Facebook propusieron un modelo unificado multitarea y multimodal UniT

(5), Tsinghua y otros investigadores propusieron un modelo de aprendizaje rápido intermodal CPT

(6), los investigadores del Instituto de Investigación de Microsoft Asia y la Universidad de Pekín propusieron un modelo de pre-entrenamiento NÜWA (Nuwa) que cubre tres datos modales

4. Acelerar la innovación de métodos para mejorar la eficiencia del entrenamiento de modelos a escala de parámetros ultragrandes

(1) En enero de 2021, investigadores como Microsoft propusieron la tecnología de entrenamiento heterogénea ZeRO-Offload

(2) En marzo de 202, los investigadores de Zhiyuan y Tsinghua desarrollaron conjuntamente el sistema de aceleración FastMoE

(3) En septiembre de 2021, los investigadores de Zhiyuan y Tsinghua desarrollaron conjuntamente el sistema de aceleración BMINf

(4) En octubre de 2021, Microsoft y Nvidia propusieron conjuntamente el método de aceleración PTD-P

5. El modelo de pre-entrenamiento se aplica en escenarios como la investigación biológica e Internet

(1), en mayo de 2021, Google propuso un modelo MUM unificado multitarea

(2), en junio de 2021, investigadores como la Universidad de Tsinghua y Zhiyuan propusieron el modelo de idioma central chino CPM

(3), en agosto de 2021, investigadores como Zhiyuan y la Universidad de Tsinghua propusieron el modelo de preentrenamiento de proteínas ProteinLM


Tecnología de modelos preentrenados

1. Se ha formado el campo emergente de la investigación sistemática sobre el desarrollo y el impacto de los modelos inteligentes a gran escala.

Con el surgimiento de modelos súper grandes como BERT, GPT-3 y DALL E, el esquema de adaptación de " aprendizaje autosupervisado + ajuste fino de modelos preentrenados " se ha convertido gradualmente en la corriente principal. Sin embargo, dado que el modelo de formación previa a gran escala desempeña un papel cada vez más destacado en la investigación científica, la industria, la sociedad, la economía y otros campos, su impacto de gran alcance se ha convertido en el foco de atención de los científicos.

(1), OpenAI propone la construcción de conjuntos de datos PALMS y métodos de ajuste fino del modelo

En junio de 2021, OpenAI propuso un método de construcción de conjuntos de datos y ajuste fino del modelo llamado "PALMS", que puede construir "Conjuntos de datos orientados a valores" (Values-Targeted Datasets), para que pueda corregir el sesgo GPT-3 y resolver el El problema de las cuestiones éticas planteadas por los grandes modelos desempeñó un papel impulsor.

Fuente : https://cdn.openai.com/palms.pdf

(2), Percy Liang, Li Feifei y otros académicos propusieron el concepto de modelo básico

En agosto de 2021, académicos como Percy Liang y Li Feifei nombraron el modelo de precapacitación a gran escala como Modelos básicos y escribieron un artículo sobre las oportunidades y los desafíos que enfrenta el modelo básico. La tesis se divide en cuatro partes, que exponen respectivamente las capacidades, los campos de aplicación, los aspectos técnicos y el impacto social del modelo básico.

Fuente : https://arxiv.org/pdf/2108.07258.pdf

(3), DeepMind publicó un artículo sobre la evaluación del riesgo social de los modelos lingüísticos

En diciembre de 2021, DeepMind publicó un artículo sobre los riesgos éticos y sociales de los modelos de lenguaje preentrenados. Los investigadores exploraron principalmente los efectos adversos del modelo en seis aspectos y mencionaron dos aspectos de los impactos éticos y sociales a los que los investigadores deben seguir prestando atención. Una es que las herramientas actuales de evaluación comparativa son insuficientes para evaluar algunos riesgos éticos y sociales. Por ejemplo, cuando un modelo de lenguaje genera información falsa, los humanos creen que esa información es verdadera. Evaluar este peligro requiere una mayor interacción humana con los modelos de lenguaje. En segundo lugar, la investigación sobre el control de riesgos aún es insuficiente . Por ejemplo, los modelos de lenguaje aprenden, reproducen y amplifican los sesgos sociales, pero la investigación sobre este tema aún se encuentra en sus primeras etapas.

Leyenda: La ética y los riesgos sociales de los seis principales modelos de lenguaje estudiados en el artículo de DeepMind

来源Modelado del lenguaje a escala: Gopher, consideraciones éticas y recuperación

2. La competencia de investigación y desarrollo del modelo de preentrenamiento a gran escala ha entrado en una etapa feroz

La llegada de GPT-3 ha inspirado a los investigadores a explorar modelos de preentrenamiento a gran escala con un rendimiento más sorprendente y de mayor escala . Las instituciones y empresas de investigación científica a gran escala en el país y en el extranjero han invertido enormes cantidades de poder de cómputo en investigación y desarrollo, elevando la escala del poder de cómputo a billones de escalas y explorando los parámetros, el rendimiento y los límites generales de capacidad de tareas del modelo. En la actualidad, instituciones y empresas de I+D como OpenAI, Google, FaceBook, Microsoft, Nvidia, Zhiyuan Research Institute, Alibaba Dharma Institute, Huawei, Baidu e Inspur se han unido a la "carrera armamentista".

(1), Google desarrolló un modelo de preentrenamiento Switch Transformer a escala de un billón

En enero de 2021, los investigadores de Google desarrollaron un nuevo modelo de lenguaje Switch Transformer, que contiene 1,6 billones de parámetros , nueve veces más que GPT-3, que contiene 175 000 millones de parámetros. Los investigadores compararon Switch Transformer con los modelos T5-Base y T5-Large de Google, y los resultados mostraron que, con los mismos recursos informáticos, el nuevo modelo logró un aumento de la velocidad previa al entrenamiento de hasta 7 veces .

Leyenda: Estructura del bloque de codificación del transformador de conmutación

(2), Zhiyuan lanza el modelo inteligente a gran escala Enlightenment 1.0/2.0

El 20 de marzo de 2021, el Instituto de Investigación de Zhiyuan lanzó el primer modelo de información inteligente a gran escala de China " Iluminación 1.0 ", entrenó una serie de modelos que incluyen chino, multimodal, cognición y predicción de proteínas, y entrenó previamente el modelo. Se han logrado avances tecnológicos líderes en el mundo en términos de paradigma, tecnología de amplificación de escala y rendimiento, y construcción de bases de datos de corpus de capacitación. El 1 de junio, el Instituto de Investigación de Zhiyuan lanzó el modelo "Iluminación 2.0" , con una escala de parámetros de  1,75 billones , 10 veces la de GPT-3, rompiendo el récord de 1,6 billones de parámetros creado por  el modelo de preentrenamiento Switch Transformer , y el primero en China modelo a escala de billones .

Leyenda: Innovaciones tecnológicas en la Ilustración 2.0

(3), Microsoft y Nvidia lanzaron el modelo de pre-entrenamiento Megatron-Turing

En octubre de 2021, Microsoft y Nvidia lanzaron el modelo de preentrenamiento Megatron-Turing (MT-NLP). El modelo es una versión de próxima generación del modelo T-NLG (Turing-NLG) de Microsoft y NVIDIA Megatron-LM , que contiene  530 mil millones de parámetros . Los investigadores seleccionaron 8 tareas en cinco dominios para evaluar el efecto de MT-NLG. En los experimentos, el modelo logra el mejor rendimiento en algunas de estas tareas. 

Leyenda: el conjunto de datos utilizado por el modelo MT-NLG

Leyenda: rendimiento de MT-NLG en diferentes tareas en condiciones de muestra cero, muestra única y muestra pequeña

(4), DeepMind lanzó el modelo de pre-entrenamiento Gopher

En diciembre de 2021, DeepMind lanzó el modelo de lenguaje previamente entrenado Gopher con una escala de parámetros de 280 mil millones . El modelo se entrena con  chips de aceleración 4096 TPUv3 y se combina con múltiples estrategias de aceleración en paralelo . Esta investigación se utiliza principalmente para explorar las ventajas y desventajas de los modelos de diferentes tamaños y para comprender en qué áreas se puede obtener un mejor rendimiento después de que aumenta el tamaño del parámetro del modelo. Los investigadores encontraron que el aumento en el tamaño del modelo ha mejorado en gran medida tareas como la comprensión de lectura , la verificación de datos y la identificación del habla venenosa , pero la mejora en el razonamiento lógico y las tareas de sentido común no es significativa . Además, los investigadores también han estudiado las capacidades y deficiencias del modelo Gopher en áreas como el diálogo.

Leyenda: Desempeño de Gopher y otros modelos en diferentes categorías en el punto de referencia Massive Multitask Language Understanding (MMLU)

来源Modelado del lenguaje a escala: Gopher, consideraciones éticas y recuperación

(5) Otras compañías continúan desarrollando modelos de pre-entrenamiento a gran escala

Además de los casos anteriores, en abril de 2021, Huawei Cloud Combined Cycle Intelligence lanzó el  modelo de lenguaje de pre-entrenamiento a gran escala Pangu NLP con una escala de parámetros de  100 mil millones , y lanzó conjuntamente el modelo de pre-entrenamiento a gran escala Pangu α. -modelo de entrenamiento con una escala de parámetros de 200 ; mil millones lanzó el modelo de lenguaje de pre-entrenamiento chino  PLUG con 27 mil millones de parámetros , y junto con la Universidad de Tsinghua lanzó el modelo de pre-entrenamiento multimodal chino  M6 con una escala de parámetros de  100 mil millones , que ha superado los 10 billones de parámetros ;

En julio, Baidu lanzó el modelo de mejora del conocimiento ERNIE 3.0  con una escala de parámetros de decenas de miles de millones ;

En octubre, Inspur lanzó alrededor de 250 mil millones de modelos de preentrenamiento a gran escala;

En diciembre, Baidu lanzó  el modelo ERNIE 3.0 Titan  con una escala de parámetros de  260 mil millones ; Google entrenó un modelo  BERT gigante con una escala de parámetros de 481 mil millones  , y los resultados se publicaron en la lista de capacitación MLPerfv1.1; además, Google también propuso  un modelo de 1,2 billones de parámetros El modelo general de lenguaje disperso  GLaM supera a GPT-3 en 7 dominios de aprendizaje pequeños.

3. El modelo de preentrenamiento multimodal se ha convertido en la próxima área clave de desarrollo para modelos grandes.

Con el apoyo de big data , grandes parámetros y gran poder de cómputo , el modelo de pre-entrenamiento puede aprender completamente la representación en el texto y dominar ciertos conocimientos. Si el modelo puede aprender datos de múltiples modalidades, tendrá un rendimiento más sólido en las tareas de Vision Language, como la generación de texto de imágenes y la respuesta a preguntas basadas en imágenes. El modelo de preentrenamiento multimodal es una dirección de investigación clave en 2021. Instituciones como OpenAI, Microsoft, Zhiyuan, la Universidad de Tsinghua y el Instituto de Automatización de la Academia de Ciencias de China han lanzado modelos de preentrenamiento multimodal .

(1), OpenAI propone modelos de preentrenamiento multimodal a gran escala DALL E y CLIP

En enero, OpenAI lanzó simultáneamente dos modelos de preentrenamiento multimodal a gran escala: DALL·E  y CLIP . DALL·E puede generar imágenes correspondientes en función de indicaciones de texto breves (como una oración o un párrafo de texto) , y CLIP puede clasificar imágenes en función de indicaciones de texto . OpenAI declaró que el objetivo de desarrollar un modelo grande multimodal es romper los límites del procesamiento del lenguaje natural y la visión por computadora y realizar un sistema de inteligencia artificial multimodal.

Leyenda: "Silla con forma de aguacate" generada por DALL·E

Leyenda: El modelo CLIP ha alcanzado excelentes niveles en múltiples pruebas de ImageNet

(2) La Universidad Hebrea de Israel propuso StyleCLIP, un modelo gráfico de alta definición para Vincent

En marzo, la Universidad Hebrea de Israel, el Instituto de Investigación Adobe, etc. combinaron los modelos StyleGAN y CLIP para proponer un modelo que puede generar imágenes de alta definición basadas en indicaciones de texto, llamado StyleCLIP. Los investigadores creen que StyleCLIP puede combinar el conocimiento semántico aprendido por el modelo previamente entrenado y la capacidad de generación de imágenes de la red de confrontación generativa para crear imágenes más realistas, lo que tiene ciertas ventajas en las aplicaciones prácticas.

Leyenda: proceso de procesamiento de imágenes de StyleCLIP

Leyenda: Resultados de la operación de Image PS basados ​​en mensajes de texto

Fuente : https://arxiv.org/pdf/2103.17249.pdf

(3), Zhiyuan, Tsinghua y otros investigadores propusieron el modelo gráfico Vincent CogView

En mayo, investigadores del Instituto de Investigación de Zhiyuan, la Universidad de Tsinghua y el Instituto Ali Dharma publicaron un artículo sobre el modelo de gráfico CogView Vincent, que combina VQ-VAE con un modelo de Transformador con 4 mil millones de parámetros, a través del aprendizaje de estilo, imagen de ultra alta definición. generación, ajuste fino en múltiples tareas posteriores, como la clasificación de imágenes de texto y diseño de moda, y el uso de métodos de entrenamiento previo estables, como la eliminación de pérdidas de NaN. Los resultados experimentales muestran que CogView logra los resultados FID más altos en el conjunto de datos COCO de MS fuzzed, que es más alto que los GAN y DALL·E anteriores.

Leyenda: arquitectura CogView

Leyenda: CogView genera imágenes de acuerdo con las indicaciones

(4), los investigadores de Facebook propusieron un modelo unificado multitarea y multimodal UniT

En agosto, el equipo de investigación de Facebook propuso un modelo de transformador unificado multitarea y multimodal llamado UniT, que se basa en una arquitectura unificada de codificador-descodificador de transformador que puede resolver simultáneamente una serie de tareas en los campos de visión, multimodalidad. y lenguaje, incluida la detección de objetos, el razonamiento de texto visual, la comprensión del lenguaje natural, etc. El documento indicó que el modelo tiene un desempeño sólido en 7 tareas.

Leyenda: una lista de los datos que el modelo UniT puede aprender y las tareas que completa

Leyenda: arquitectura del modelo UniT

(5), Tsinghua y otros investigadores propusieron un modelo de aprendizaje rápido intermodal CPT

En septiembre, investigadores de la Universidad de Tsinghua y la Universidad Nacional de Singapur propusieron un modelo CPT de aprendizaje de señales intermodal, que utiliza el color para ajustar el modelo de preentrenamiento intermodal basado en el aprendizaje de señales y aprende pocas veces en posicionamiento visual. y tareas de generación de gráficos de escena En comparación con el modelo de referencia, la escena ha logrado una mejora significativa.

Leyenda: marco de aprendizaje rápido intermodal de CPT

(6), los investigadores del Instituto de Investigación de Microsoft Asia y la Universidad de Pekín propusieron un modelo de pre-entrenamiento NÜWA (Nuwa) que cubre tres datos modales

En noviembre, investigadores del Instituto de Investigación Microsoft Asia y la Universidad de Pekín propusieron un modelo NÜWA de preentrenamiento multimodal unificado. El modelo utiliza una arquitectura 3D Transformer capaz de generar información visual (imagen o video). Al probar el modelo en 8 tareas posteriores, el modelo de Nuwa logra el mejor rendimiento en tareas como el gráfico de Vincent, el video de Vincent y la predicción de video.

Leyenda: tareas posteriores compatibles con el modelo Nuwa

Leyenda: La estructura del modelo Nuwa

4. Acelerar la innovación de métodos para mejorar la eficiencia del entrenamiento de modelos a escala de parámetros ultragrandes

Restringido por los recursos de potencia informática, el entrenamiento y el razonamiento de los modelos preentrenados a gran escala enfrentan serios cuellos de botella. En la investigación de GShard y Switch Transformer, Google adoptó Mixture of Experts (MoE) e introdujo múltiples redes de expertos (Expert Network) en la red neuronal para reducir la cantidad de neuronas que deben activarse y mejorar el cálculo del modelo. , aumentando los parámetros del modelo de lenguaje pre-entrenado a una escala de billones.

Leyenda: La arquitectura de MoE utiliza la función de activación dispersa (Sparse Gating Function) para determinar la red experta para realizar los cálculos

Fuente : https://arxiv.org/pdf/1701.06538.pdf

(1) En enero de 2021, investigadores como Microsoft propusieron la tecnología de entrenamiento heterogénea ZeRO-Offload

Con el aumento en la escala de parámetros del modelo de preentrenamiento a gran escala, este año han surgido más métodos de aceleración y optimización de computación de modelos a gran escala, que se centran en mejorar la eficiencia computacional del modelo. En enero, investigadores de Microsoft y la Universidad de California, Merced (Universidad de California, Merced) propusieron una tecnología heterogénea de entrenamiento de aprendizaje profundo llamada "ZeRO-Offload", que puede usar el mismo hardware para entrenar un modelo 10x a mayor escala. En una GPU V100 con 32 GB de RAM, los usuarios pueden entrenar GPT-2 con 13 000 millones de parámetros a través de ZeRO-offload; en un solo servidor DGX-2, ZeRO-offload puede entrenar un modelo con más de 70 000 millones de parámetros, según el hardware original A Se logra un aumento de 4,5 veces en el tamaño del modelo.

(2) En marzo de 202, los investigadores de Zhiyuan y Tsinghua desarrollaron conjuntamente el sistema de aceleración FastMoE

Debido a la vinculación de la tecnología MoE y el hardware y software de Google, no se puede aplicar directamente a marcos de algoritmos de código abierto como PyTorch. Para resolver este problema, en marzo, el Instituto de Investigación Zhiyuan y la Universidad de Tsinghua desarrollaron conjuntamente un sistema de aceleración llamado FastMoE, que permite a los usuarios comunes usar directamente el módulo MoE reescribiendo el código. En comparación con la versión original, FastMoE logra una optimización 47 veces más rápida. El sistema FastMoE se puede usar como un módulo en una red PyTorch o se puede usar para transformar una capa en una red existente. Los usuarios solo necesitan unas pocas líneas de código para llamar al módulo MoE. FastMoE también es compatible con cualquier módulo de red neuronal como una red experta e incluye algunos códigos CUDA especialmente optimizados, aprovechando al máximo las capacidades de computación paralela a gran escala de la GPU.

Leyenda: Cómo llamar al código FastMoE

Fuente : GitHub - laekov/fastmoe: una implementación rápida de MoE para PyTorch

Leyenda: Comparación de FastMoE y el rendimiento original de PyTorch

Leyenda: Modo paralelo de datos de FastMoE

Fuente : Zhiyuan x Tsinghua de código abierto FastMoE, la piedra angular del modelo de trillones de IA

(3) En septiembre de 2021, los investigadores de Zhiyuan y Tsinghua desarrollaron conjuntamente el sistema de aceleración BMINf

Los modelos grandes pre-entrenados han logrado resultados sorprendentes en varios campos, pero la aplicación de modelos grandes tiene un umbral alto de poder de cómputo y una velocidad de respuesta de modelo larga. En septiembre, los investigadores de la Universidad de Tsinghua y Zhiyuan lanzaron conjuntamente el kit de herramientas de inferencia de modelos grandes de bajo recurso BMInf, que también puede realizar inferencias eficientes de decenas de miles de millones de modelos grandes en tarjetas gráficas de consumo.

Leyenda: Comparación de BMInf y el rendimiento original de PyTorch

来源GitHub - OpenBMB/BMInf: Inferencia eficiente para modelos grandes

(4) En octubre de 2021, Microsoft y Nvidia propusieron conjuntamente el método de aceleración PTD-P

En octubre, Microsoft y Nvidia propusieron conjuntamente el método de aceleración de entrenamiento PTD-P (Inter-node Pipeline Parallelism, Intra-node Tensor Parallelism, and Data Parallelism), a través del paralelismo de datos, el paralelismo de tensores y el paralelismo de Pipeline. el modelo se puede aumentar en más del 10%. Este método paralelo puede entrenar un modelo de arquitectura GPT con un billón de parámetros en 3072 GPU con una potencia informática de 502P, logrando una mejora del rendimiento de 52 por GPU. Usando esta tecnología, Microsoft y Nvidia han entrenado Megatron-Turing, un modelo de lenguaje preentrenado a gran escala con 530 mil millones de parámetros, en más de 3000 GPU.

Leyenda: la escala del parámetro y el nivel de rendimiento alcanzado al entrenar el modelo con la tecnología PTD-P

Fuente : https://arxiv.org/pdf/2104.04473.pdf

5. El modelo de pre-entrenamiento se aplica en escenarios como la investigación biológica e Internet

Con la expansión gradual de la escala de datos y el mayor enriquecimiento de la modalidad de datos, el modelo de capacitación previa penetrará en más campos y completará varios tipos de tareas a través del paradigma de "ajuste fino de capacitación previa". En el campo de la investigación científica, el modelo de precapacitación se combinará con datos en el campo para convertirse en un "modelo básico" para completar tareas posteriores, ayudando a producir más descubrimientos de investigación científica. En el campo industrial, para escenarios de toma de decisiones inteligentes más complejos, el entrenamiento previo basado en varios datos de Internet, los modelos grandes con capacidad de toma de decisiones pueden ser el foco del próximo desarrollo.

(1), en mayo de 2021, Google propuso un modelo MUM unificado multitarea

En mayo, Google lanzó el Modelo unificado multitarea (MUM) en la Conferencia IO de 2021.

situación de desarrollo. El modelo MUM puede comprender 75 idiomas y ha sido entrenado previamente con una gran cantidad de datos de páginas web. Es bueno para comprender y responder a problemas complejos de toma de decisiones, y puede encontrar información de datos de páginas web multimodales en varios idiomas. Puede ser utilizado en escenarios de Internet tales como servicio al cliente, preguntas y respuestas y marketing Tiene valor de aplicación.

Leyenda: el modelo MUM puede buscar las estrategias de viaje correspondientes a partir de la información de la página web de múltiples fuentes según las preguntas del usuario

来源MUM: Un nuevo hito de IA para comprender la información

(2), en junio de 2021, investigadores como la Universidad de Tsinghua y Zhiyuan propusieron el modelo de idioma central chino CPM

En junio, la Universidad de Tsinghua, Zhiyuan y otros investigadores dieron a conocer CPM, un modelo de precapacitación multilingüe con chino como elemento central, en la Conferencia Zhiyuan de Beijing.En comparación con el modelo de precapacitación de código abierto existente, el rendimiento general de los siete lenguajes de máquina las pruebas de habilidad, que incluyen , cruce de idiomas, generación y generalización, es significativamente mejor. El modelo CPM-2 descargable públicamente se divide en 3 versiones diferentes: modelo chino de 11 000 millones de parámetros, modelo chino-inglés de 11 000 millones de parámetros y modelo MoE de 198 000 millones chino-inglés.

Leyenda: El rendimiento del modelo CPM en tareas posteriores

Fuente : https://arxiv.org/pdf/2106.10715.pdf

(3), en agosto de 2021, investigadores como Zhiyuan y la Universidad de Tsinghua propusieron el modelo de preentrenamiento de proteínas ProteinLM

En agosto, el equipo de Wudao del Instituto de Investigación Zhiyuan, junto con la Universidad de Tsinghua y Tencent Quantum Lab, propusieron un modelo de preentrenamiento de proteínas ProteinLM, que tiene modelos de código abierto con una escala de 200 millones y 3 mil millones de parámetros. El modelo es compatible con tareas de predicción de estructura secundaria de proteínas, predicción de fluorescencia, predicción de contacto, predicción de estabilidad de plegamiento y detección de homología distante. En comparación con el modelo de referencia TAPE (38 millones de parámetros), ProteinLM ha mejorado el rendimiento en las tareas posteriores, especialmente en la predicción del plegamiento de proteínas, y el modelo ha mejorado en un 39 % en comparación con el modelo de referencia.

Leyenda: Rendimiento del modelo ProteinLM en tareas posteriores

Fuente : GitHub - BAAI-WuDao/ProteinLM: Modelo de lenguaje proteico

Supongo que te gusta

Origin blog.csdn.net/qq_41185868/article/details/131160863
Recomendado
Clasificación