El árbol evolutivo del modelo de lenguaje grande (LLM), aprender LLM para comprender esta imagen es suficiente

El rápido desarrollo reciente de grandes modelos de lenguaje ha deslumbrado a todos. Siento que el rápido desarrollo de LLM es comparable a la explosión del Cámbrico, y la relación entre varios modelos también es confusa. Recientemente, algunos académicos compilaron un diagrama de árbol evolutivo del desarrollo de modelos de lenguaje como ChatGPT, para que todos puedan ver la relación entre los LLM de un vistazo.

Papel: https://arxiv.org/abs/2304.13712

Github (recursos relacionados): https://github.com/Mooler0410/LLMsPracticalGuide

Los diagramas de árbol evolutivo más importantes:

Diagrama de árbol de la evolución

El árbol evolutivo de los modelos lingüísticos modernos rastrea el desarrollo de los modelos lingüísticos en los últimos años y destaca algunos de los modelos más famosos. Los modelos en la misma rama están más cerca. Los modelos basados ​​en transformadores se muestran en colores que no son grises: el modelo de solo decodificador se muestra como la rama azul , el modelo de solo codificador se muestra como la rama rosa y el modelo de codificador-decodificador se muestra como la rama verde . La posición vertical del modelo en el eje del tiempo representa su fecha de lanzamiento. Los modelos de código abierto están representados por cuadrados sólidos, mientras que los modelos de código cerrado están representados por cuadrados abiertos. El gráfico de barras apiladas en la parte inferior derecha muestra la cantidad de modelos de cada empresa e institución.

Luego hay una imagen en movimiento de la evolución por año, el contenido principal es el mismo que el de la imagen de arriba.

Introducción al contenido del documento ( Aprovechando el poder de los LLM en la práctica: una encuesta sobre ChatGPT y más allá )

Dirección en papel: https://arxiv.org/abs/2304.13712

tendencia

a) Los modelos de solo decodificador dominan gradualmente el desarrollo de modelos de lenguaje. En las primeras etapas del desarrollo del modelo de lenguaje, los modelos de solo decodificador eran menos populares que los modelos de solo codificador y codificador-decodificador. Sin embargo, después de 2021, los modelos solo con decodificador experimentan un auge significativo con la introducción del revolucionario modelo de lenguaje GPT-3. Al mismo tiempo, después de la explosión inicial provocada por BERT, los modelos de solo codificador comenzaron a desvanecerse gradualmente.

b) OpenAI siempre ha mantenido una posición de liderazgo en el campo de los modelos de lenguaje, tanto en la actualidad como en el futuro. Otras empresas e instituciones están tratando de ponerse al día con OpenAI para desarrollar modelos comparables a GPT-3 y al actual GPT-4. Este liderazgo se puede atribuir a la firme adhesión de OpenAI a su línea técnica, aunque inicialmente no fue ampliamente reconocida.

c) Meta ha hecho contribuciones significativas a los modelos de lenguaje de código abierto y ha facilitado la investigación de modelos de lenguaje. Al considerar las contribuciones a la comunidad de código abierto, especialmente aquellas relacionadas con los modelos de lenguaje, Meta se destaca como una de las empresas comerciales más generosas, ya que todos los modelos de lenguaje desarrollados por Meta son de código abierto.

d) Los modelos de lenguaje muestran una tendencia hacia el código cerrado. En las primeras etapas del desarrollo del modelo de lenguaje (antes de 2020), la mayoría de los modelos son de código abierto. Sin embargo, con la introducción de GPT-3, las empresas se están inclinando cada vez más hacia el abastecimiento cerrado de sus modelos, como PaLM, LaMDA y GPT-4. Como resultado, es más difícil para los investigadores académicos experimentar con el entrenamiento del modelo de lenguaje. Por lo tanto, la investigación basada en API puede convertirse en un enfoque general en la academia.

e) Los modelos de codificador-decodificador siguen siendo prometedores, ya que tales arquitecturas todavía se exploran activamente y la mayoría son de código abierto. Google ha realizado contribuciones significativas a la arquitectura de codificador y decodificador de código abierto. Sin embargo, la flexibilidad y versatilidad del modelo de solo decodificador parece hacer menos prometedor para Google seguir en esta dirección.

En conclusión, los modelos de solo decodificador y los modelos de código abierto han dominado en los últimos años, mientras que OpenAI y Meta han realizado contribuciones significativas en la promoción de la innovación del modelo de lenguaje y el código abierto. Al mismo tiempo, los modelos de codificador-decodificador y los modelos de código cerrado también han impulsado el desarrollo hasta cierto punto. Las empresas e instituciones enfrentan diferentes perspectivas en el camino del desarrollo tecnológico.

Guía Práctica para Modelos

Una lista seleccionada (y aún en actualización activa) de recursos de guías prácticas para el LLM. Se basa en el documento de encuesta: Aprovechar el poder de LLM en la práctica: una encuesta sobre ChatGPT y más allá . Estos recursos están diseñados para ayudar a los profesionales a navegar por modelos de lenguaje extenso (LLM) y su aplicación a aplicaciones de procesamiento de lenguaje natural (NLP).

Modelo de lenguaje de estilo BERT: codificador-descodificador o solo codificador

  • BERT  BERT: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje , 2018,  Papel
  • Roberta  ALBERT: A Lite BERT for Self-supervised Learning of Language Representations , 2019,  Paper
  • DistilBERT  DistilBERT, una versión destilada de BERT: más pequeño, más rápido, más barato y más ligero , 2019,  Papel
  • ALBERT  ALBERT: A Lite BERT for Self-supervised Learning of Language Representations , 2019,  Paper
  • Preentrenamiento del modelo de lenguaje unificado UniLM  para la comprensión y generación del lenguaje natural documento de 2019
  • ELECTRA  ELECTRA: CODIFICADORES DE TEXTO PRE-ENTRENAMIENTO COMO DISCRIMINADORES EN LUGAR DE GENERADORES , 2020,  Papel
  • T5  "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto"Colin Raffel et al.  JMLR 2019.  Papel
  • GLM  "GLM-130B: un modelo preentrenado bilingüe abierto" . 2022.  Papel
  • AlexaTM  "AlexaTM 20B: Aprendizaje de pocas tomas usando un modelo Seq2Seq multilingüe a gran escala"Saleh Soltan et al.  arXiv 2022.  Papel
  • ST-MoE  ST-MoE: diseño de modelos expertos dispersos estables y transferibles . 2022  Papel

Modelo de lenguaje de estilo GPT: solo decodificador

  • GPT  Mejorando la Comprensión del Lenguaje por Pre-Entrenamiento Generativo . 2018.  Papel
  • Los modelos de lenguaje GPT-2  son estudiantes multitarea no supervisados . 2018.  Papel
  • GPT-3  "Los modelos lingüísticos son aprendices de pocas oportunidades" . NeurIPS 2020.  Papel
  • OPT  "OPT: Modelos de lenguaje de transformadores preentrenados abiertos" . 2022.  Papel
  • PaLM  "PaLM: modelado de lenguaje escalable con rutas"Aakanksha Chowdhery et al.  arXiv 2022.  Papel
  • BLOOM  "BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B" . 2022.  Papel
  • MT-NLG  "Uso de DeepSpeed ​​y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala" . 2021.  Papel
  • GLaM  "GLaM: escalado eficiente de modelos de lenguaje con mezcla de expertos" . ICML 2022.  Papel
  • Gopher  "Modelos de lenguaje escalables: métodos, análisis e información del entrenamiento de Gopher" . 2021.  Papel
  • chinchilla  "Entrenamiento Compute-Optimal Large Language Models" . 2022.  Papel
  • LaMDA  "LaMDA: modelos de lenguaje para aplicaciones de diálogo" . 2021.  Papel
  • LLaMA  "LLaMA: Modelos de Lenguaje Fundamentados Abiertos y Eficientes" . 2023.  Papel
  • GPT-4  "Informe técnico GPT-4" . 2023.  Papel
  • BloombergGPT  BloombergGPT: un modelo de lenguaje extenso para finanzas , 2023,  papel
  • GPT-NeoX-20B:  "GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto" . 2022.  Papel

Una guía práctica de datos

datos previos al entrenamiento

  • RedPajama, 2023. Repo
  • The Pile: An 800GB Dataset of Diverse Text for Language Modeling , Arxiv 2020.  Papel
  • ¿Cómo afecta el objetivo de pre-entrenamiento lo que los grandes modelos de lenguaje aprenden sobre las propiedades lingüísticas? , ACL 2022.  Papel
  • Leyes de escala para modelos de lenguaje neural , 2020.  Papel
  • Inteligencia artificial centrada en datos: una encuesta , 2023.  Papel
  • ¿Cómo obtiene GPT su habilidad? Seguimiento de las habilidades emergentes de los modelos de lenguaje hasta sus fuentes , 2022.  Blog

datos de ajuste fino

  • Evaluación comparativa de la clasificación de texto de disparo cero: Conjuntos de datos, evaluación y enfoque de vinculación , EMNLP 2019.  Papel
  • Language Models are Few-Shot Learners , NIPS 2020.  Papel
  • ¿La generación de datos sintéticos de LLM ayuda a la minería de textos clínicos? Papel  Arxiv 2023 

Datos de prueba/Datos de usuario

  • Aprendizaje abreviado de modelos lingüísticos grandes en la comprensión del lenguaje natural: una encuesta , Arxiv 2023.  Documento
  • Sobre la solidez de ChatGPT: una perspectiva contradictoria y fuera de distribución  Arxiv, 2023.  Documento
  • SuperGLUE: un punto de referencia más sólido para los sistemas de comprensión de lenguajes de propósito general  Arxiv 2019.  Papel

Una guía práctica para las tareas de la PNL

Los investigadores crearon un flujo de decisiones ~\protect\footnotemark para elegir un LLM o ajustar un modelo para la aplicación de NLP de un usuario. El proceso de decisión ayuda a los usuarios a evaluar si su aplicación NLP descendente en cuestión cumple con ciertos criterios y, en función de esa evaluación, decidir si un LLM o un modelo ajustado es el más adecuado para su aplicación.

Tareas tradicionales de procesamiento no lingüístico (tareas NLU)

  • Un punto de referencia para la clasificación de comentarios tóxicos en el conjunto de datos de comentarios civiles  Arxiv 2023  Paper
  • ¿Chatgpt es un solucionador de tareas de procesamiento de lenguaje natural de propósito general? Papel  Arxiv 2023
  • Evaluación comparativa de modelos de lenguaje grande para el resumen de noticias  Arxiv 2022  Paper

construir tarea

  • Resumen y evaluación de noticias en la era de gpt-3  Arxiv 2022  Paper
  • ¿Es chatgpt un buen traductor? si con gpt-4 como motor  Arxiv 2023  Paper
  • Sistemas de traducción automática multilingüe de Microsoft para tareas compartidas WMT21 , WMT2021  Paper
  • ¿ChatGPT también puede entender? un estudio comparativo sobre chatgpt y fine-tuned bert , Arxiv 2023,  Paper

tareas intensivas en conocimiento

  • Medición de la comprensión lingüística multitarea masiva , ICLR 2021  Paper
  • Más allá del juego de la imitación: cuantificación y extrapolación de las capacidades de los modelos lingüísticos , Arxiv 2022  Paper
  • Premio escala inversa , 2022  Link
  • Atlas: aprendizaje de pocas tomas con recuperación de modelos de lenguaje aumentadosartículo de Arxiv 2022
  • Los modelos de lenguaje grande codifican el conocimiento clínicoartículo de Arxiv 2022

capacidad de zoom

Tareas específicas

  • Imagen como lengua extranjera: Preentrenamiento BEiT para todas las tareas de visión y visión-lenguajeartículo de Arixv 2022
  • PaLI: un modelo de imagen de idioma multilingüe de escala conjuntaartículo de Arxiv 2022
  • AugGPT: aprovechamiento de ChatGPT para el aumento de datos de texto , artículo de Arxiv 2023 
  • ¿Es gpt-3 un buen anotador de datos? , Arxiv 2022  Papel
  • ¿Quiere reducir el costo de etiquetado? GPT-3 puede ayudar , hallazgos de EMNLP 2021  Paper
  • GPT3Mix: Aprovechamiento de modelos de lenguaje a gran escala para el aumento de texto , hallazgos de EMNLP 2021  Paper
  • LLM para coincidencia de pacientes y ensayos: aumento de datos consciente de la privacidad hacia un mejor rendimiento y generalizabilidad , artículo de Arxiv 2023 
  • ChatGPT supera a Crowd-Workers en tareas de anotación de textoartículo de Arxiv 2023
  • G-Eval: evaluación de NLG usando GPT-4 con mejor alineación humana , artículo de Arxiv 2023 
  • GPTScore: Evalúe como desee , documento Arxiv 2023 
  • Los modelos lingüísticos grandes son evaluadores de última generación de la calidad de la traducciónartículo de Arxiv 2023
  • ¿Es ChatGPT un buen evaluador de NLG? Un estudio preliminar , artículo Arxiv 2023 

"Tareas" del mundo real

  • Chispas de inteligencia artificial general: primeros experimentos con GPT-4 , artículo Arxiv 2023 

eficiencia

1. Costo

  • Modelo de lenguaje gpt-3 de Openai: una descripción técnica , 2020.  Entrada de blog
  • Medición de la intensidad de carbono de ia en instancias de nube , FaccT 2022.  Documento
  • En IA, ¿más grande siempre es mejor? , Naturaleza Artículo 2023.  Artículo
  • Language Models are Few-Shot Learners , NeurIPS 2020.  Papel
  • Precios , Open AI. Entrada en el blog

2. Retraso

  • HELM:  Evaluación holística de modelos de lenguaje , Arxiv 2022.  Papel

3. Ajuste eficiente de los parámetros

  • LoRA: Adaptación de bajo rango de modelos de lenguaje grande , Arxiv 2021.  Papel
  • Ajuste de prefijo: optimización de avisos continuos para generación , ACL 2021.  Documento
  • P-Tuning: Prompt Tuning puede ser comparable a Fine-tuning a través de escalas y tareas , ACL 2022.  Documento
  • P-Tuning v2: El ajuste rápido puede compararse con el ajuste fino universalmente en todas las escalas y tareas , Arxiv 2022.  Papel

4. Sistema de pre-entrenamiento

  • ZeRO: Optimizaciones de memoria para entrenar trillones de modelos de parámetros , Arxiv 2019.  Papel
  • Megatron-LM: Entrenamiento de modelos de lenguaje de parámetros multimillonarios mediante el paralelismo de modelos , Arxiv 2019.  Papel
  • Capacitación eficiente de modelos de lenguaje a gran escala en clústeres de GPU con Megatron-LM , Arxiv 2021.  Papel
  • Reducción del recálculo de activación en modelos de transformadores grandes , Arxiv 2021.  Papel

Crédito

  1. Robustez y Calibración
  • Calibrar antes de usar: mejorar el rendimiento de pocos disparos de los modelos de lenguaje , ICML 2021.  Documento
  • SPeC: una calibración suave basada en indicaciones para mitigar la variabilidad del rendimiento en el resumen de notas clínicas , Arxiv 2023.  Papel

2. Sesgos espurios

  • Aprendizaje abreviado de modelos lingüísticos grandes en la comprensión del lenguaje natural: una encuestaartículo de 2023
  • Mitigar el sesgo de género en el sistema de subtítulos , WWW 2020  Paper
  • Calibrar antes de usar: mejorar el rendimiento de pocos disparos de los modelos de lenguajedocumento ICML 2021
  • Aprendizaje de accesos directos en redes neuronales profundas , artículo de Nature Machine Intelligence 2020 
  • ¿Los modelos basados ​​en mensajes realmente entienden el significado de sus mensajes? , Papel NAACL 2022 

3. Problemas de seguridad

  • Tarjeta del sistema GPT-4papel 2023
  • La ciencia de detectar textos generados por películas , Arxiv 2023  Paper
  • Cómo se comparten los estereotipos a través del lenguaje: una revisión e introducción del marco de comunicación de categorías sociales y estereotipos (scsc) , Revisión de la investigación en comunicación,  Documento de 2019
  • Tonos de género: disparidades de precisión interseccional en la clasificación de género comercialdocumento FaccT 2018

Ajuste de instrucciones de referencia

  • FLAN:  Los modelos de lenguaje perfeccionados son estudiantes de tiro ceroartículo de Arxiv 2021
  • T0:  La capacitación impulsada por tareas múltiples permite la generalización de tareas de disparo ceroartículo de Arxiv 2021
  • Generalización de tareas cruzadas a través de instrucciones de crowdsourcing en lenguaje naturalDocumento ACL 2022
  • Tk-INSTRUCT:  Super-NaturalInstructions: Generalización a través de instrucciones declarativas en más de 1600 tareas de NLP , EMNLP 2022  Paper
  • FLAN-T5/PaLM:  instrucción de escalado: modelos de lenguaje ajustados , papel Arxiv 2022 
  • The Flan Collection: Diseño de datos y métodos para el ajuste efectivo de la instrucciónartículo de Arxiv 2023
  • OPT-IML: Metaaprendizaje de la instrucción del modelo de lenguaje a escala a través de la lente de la generalización , artículo de Arxiv 2023 

Alineación

  • Aprendizaje por refuerzo profundo a partir de las preferencias humanasartículo de NIPS 2017
  • Aprender a resumir a partir de la retroalimentación humana , Arxiv 2020  Paper
  • Un asistente lingüístico general como laboratorio para la alineaciónartículo Arxiv 2021
  • Capacitación de un asistente útil e inofensivo con el aprendizaje por refuerzo a partir de la retroalimentación humanaartículo de Arxiv 2022
  • Enseñanza de modelos lingüísticos para respaldar respuestas con comillas verificadasartículo Arxiv 2022
  • InstructGPT:  Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana , Arxiv 2022  Paper
  • Mejorando la alineación de los agentes de diálogo a través de juicios humanos específicos , Arxiv 2022  Paper
  • Leyes de escala para la sobreoptimización del modelo de recompensadocumento de Arxiv 2022
  • Supervisión escalable:  Medición del progreso en la supervisión escalable para modelos de lenguaje grandesartículo de Arxiv 2022

Calibración segura (inofensiva)

  • Red Teaming Language Models with Language Models , Arxiv 2022  Paper
  • Inteligencia artificial constitucional: inofensividad a partir de la retroalimentación de inteligencia artificial , documento Arxiv 2022 
  • La capacidad de autocorrección moral en grandes modelos lingüísticos , artículo Arxiv 2023 
  • OpenAI: Nuestro enfoque de la seguridad de la IA , 2023  Blog

Autenticidad Coherencia (Honestidad)

  • Aprendizaje por refuerzo para modelos de lenguaje , 2023  Blog

Consejos Guía Práctica (Útil)

  • Libro de cocina de OpenAIBlog
  • Ingeniería rápidaBlog
  • ¡Ingeniería rápida de ChatGPT para desarrolladores! Curso

El trabajo de la comunidad de código abierto

Amigos que se sientan útiles, bienvenidos a estar de acuerdo, seguir y compartir Sanlian. ^-^

Supongo que te gusta

Origin blog.csdn.net/hawkman/article/details/130641688
Recomendado
Clasificación