Inventario de artículos de modelos grandes de código abierto, con enlace de descarga de PDF incluido

Los modelos grandes han entrado en la "era de Android" y continúan surgiendo modelos de código abierto y modelos de código cerrado, convirtiéndose en dos fuerzas paralelas en el campo de los modelos grandes.

Los grandes modelos de código abierto han aportado nueva vitalidad al campo de la IA, y siguen surgiendo aplicaciones ecológicas de la industria e incluso nuevos modelos desarrollados en base a grandes modelos de código abierto. También proporciona a los investigadores y desarrolladores un espacio más amplio para que la innovación experimente con estos modelos de código abierto sin recursos limitados ni sistemas propietarios.

En el extranjero, después del lanzamiento de ChatGPT, Meta lanzó Llama, y ​​este año lanzó Llama2, que es de código abierto y está disponible comercialmente. La Universidad de Stanford lanzó Alpaca después de afinar Llama, y ​​Falcon con 180 mil millones de parámetros también se anunció recientemente como código abierto. .

En China, la Universidad de Tsinghua y Zhipu AI lanzaron el ChatGLM-6B de código abierto, el Scholar Puyu del Laboratorio de Inteligencia Artificial de Shanghai, el baichuan-7B de Baichuan Intelligent, etc.

Los modelos de código abierto están avanzando rápidamente en todo el mundo.

En este artículo, resumimos algunos de los artículos actuales sobre modelos grandes de código abierto y los combinamos con la función AMiner AI para formar una revisión del artículo, para que todos puedan comprender los detalles del artículo más rápidamente.

Echemos un vistazo más de cerca a estos interesantes desarrollos.

1.Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto

El artículo ilustra que el aprendizaje por transferencia se ha convertido en una técnica poderosa en el campo del procesamiento del lenguaje natural (PNL), en el que los modelos primero se entrenan previamente en tareas ricas en datos y luego se ajustan en tareas posteriores. La eficacia del aprendizaje por transferencia ha dado lugar a una variedad de enfoques, metodologías y prácticas. Este artículo explora el potencial de las técnicas de aprendizaje por transferencia de PNL mediante la introducción de un marco unificado que transforma todos los problemas del lenguaje basado en texto en un formato de texto a texto. Al comparar objetivos previos al entrenamiento, arquitecturas, conjuntos de datos sin etiquetar, métodos de entrega y otros factores en docenas de tareas de comprensión del lenguaje, combinados con conjuntos de datos a gran escala y un nuevo "enorme corpus de rastreo limpio", la investigación logró una serie de Los últimos resultados en las pruebas de referencia cubren tareas como resúmenes, respuesta a preguntas y clasificación de textos. Para facilitar futuras investigaciones sobre el aprendizaje por transferencia de PNL, los investigadores publicaron su conjunto de datos, su modelo previamente entrenado y su código.

Enlace del artículo: https://www.aminer.cn/pub/5db1765a3a55ac101c887e97/?f=cs

2.mT5: un transformador de texto a texto preentrenado masivamente multilingüe

Este artículo presenta un modelo Transformer de texto a texto pre-entrenado multilingüe a gran escala llamado mT5. El reciente Transformador de texto a texto (T5) logra resultados de última generación en una variedad de tareas de procesamiento del lenguaje natural en inglés utilizando formato y escala unificados de texto a texto. En este artículo, presentamos mT5, una variante multilingüe de T5 basada en datos de Common Crawl, que cubre 101 idiomas. Describimos el diseño y el entrenamiento modificado de mT5 y demostramos su rendimiento de vanguardia en múltiples puntos de referencia multilingües. Todos los puntos de control de código y modelo utilizados para este trabajo están disponibles públicamente.

Enlace del artículo: https://www.aminer.cn/pub/5f92ba5191e011edb3573ba5/?f=cs

3.PanGu-α: modelos de idioma chino preentrenados autorregresivos a gran escala con computación automática paralela

Este artículo presenta un modelo de idioma chino preentrenado autorregresivo a gran escala llamado PanGu-α con 20 mil millones de parámetros. Al desarrollar PanGu-α, se utilizó y entrenó el marco MindSpore en un grupo de procesadores de IA 2048 Asciend 910. La capacitación adopta una estrategia de capacitación paralela basada en MindSpore Auto-parallel, que incluye paralelismo de datos, paralelismo de modelos a nivel de operación, paralelismo de modelos de canalización, paralelismo de modelos optimizadores y remuestreo. Para mejorar la capacidad de generalización de PanGu-α, utilizamos 1,1 TB de datos chinos de alta calidad de múltiples campos para el entrenamiento previo. En la prueba, probamos las capacidades de generación de PanGu-α en resúmenes de texto, preguntas y respuestas, generación de diálogos y otros escenarios. Además, también estudiamos el impacto del tamaño del modelo en diferentes tareas de procesamiento del lenguaje natural chino y demostramos que PanGu-α tiene excelentes capacidades de rendimiento con pocas o ninguna muestra.

Enlace del artículo: https://www.aminer.cn/pub/6087f2ff91e011e25a316d31/?f=cs

4.CPM-2: modelos de lenguaje preentrenados rentables a gran escala

Este artículo presenta un modelo de lenguaje preentrenado eficiente a gran escala llamado CPM-2, que utiliza una serie de técnicas eficientes para resolver la eficiencia y los problemas en el proceso de preentrenamiento, ajuste fino e inferencia. Estos métodos incluyen la herencia de conocimientos para acelerar el proceso de preentrenamiento, el uso de grandes modelos de lenguaje previamente entrenados para un ajuste rápido y un nuevo conjunto de herramientas de inferencia infmoe para usar grandes modelos de lenguaje previamente entrenados en entornos con recursos limitados. Basado en estas tecnologías, este artículo presenta un codificador-decodificador bilingüe modelo CPM-2 con 11 mil millones de parámetros y una versión MoE con 198 mil millones de parámetros. En experimentos, se comparó CPM-2 con mT5 en tareas posteriores y los resultados mostraron que CPM-2 tiene una buena inteligencia lingüística general. Además, también verificamos la eficiencia de infmoe para inferir modelos grandes en una sola GPU. El código fuente y los parámetros del modelo del artículo están disponibles en https://github.com/TsinghuaAI/CPM.

Enlace del artículo: https://www.aminer.cn/pub/60d30ac49e795e035c9e5884/?f=cs

5.La capacitación impulsada por tareas múltiples permite la generalización de tareas inmediatas

El artículo ilustra un problema: cómo lograr una generalización de tareas cero mediante el uso del aprendizaje multitarea. El artículo explica que la razón del reciente logro de una generalización razonable de tiro cero en modelos de lenguaje grandes puede deberse al aprendizaje multitarea implícito en el entrenamiento de modelos de lenguaje. Los autores proponen un sistema que convierte tareas comunes del lenguaje natural en formas comprensibles para probar si el aprendizaje explícito de múltiples tareas puede inducir directamente una generalización cero. Al ajustar el modelo codificador-decodificador previamente entrenado en este conjunto de datos híbrido multitarea, los autores descubrieron que el modelo logró un fuerte rendimiento cero en varios conjuntos de datos estándar y, por lo general, superó su propio tamaño en un modelo de un factor de 16. Además, el método del autor también funcionó bien en algunas tareas en el punto de referencia BIG-Bench, superando a modelos 6 veces su propio tamaño.

Enlace del artículo: https://www.aminer.cn/pub/616ce5a55244ab9dcbacff30/?f=cs

6.GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto

Este artículo presenta un modelo de lenguaje de regresión de código abierto llamado GPT-NeoX-20B. El modelo tiene 20 mil millones de parámetros y está entrenado en el conjunto de datos apilados Pile. Los pesos del modelo se darán a conocer pública y gratuitamente a través de una licencia de código abierto. Hasta donde sabemos, este es el modelo autorregresivo denso más grande disponible públicamente en ese momento. En este artículo, describimos la arquitectura y el entrenamiento de GPT-NeoX-20B y evaluamos su desempeño en tareas de comprensión del lenguaje, matemáticas y conocimiento.

Enlace del artículo: https://www.aminer.cn/pub/6258e26b5aee126c0fbc7a9a/?f=cs

7.CodeGen: un modelo de lenguaje grande abierto para código con síntesis de programas de múltiples turnos

Este artículo estudia nuevas tecnologías para la generación de programas informáticos, con el objetivo de generar programas informáticos a partir de descripciones en lenguaje natural o ejemplos de entrada y salida. Si bien la popularidad de los grandes modelos de lenguaje ha estimulado el desarrollo de técnicas de generación de programas, los recursos y datos de capacitación limitados han limitado el acceso público a estos modelos. Para resolver este problema, el artículo entrenó y publicó un modelo de lenguaje grande llamado CODEGEN, que tiene 16,1 mil millones de parámetros, se entrenó utilizando lenguaje natural y datos de lenguaje de programación, y la biblioteca de capacitación era de código abierto, llamada JAXFORMER. El modelo funcionó bien en la prueba HumanEval de generación de código Python de disparo cero, lo que demuestra su practicidad. Además, el artículo investiga un paradigma de generación de programas de varios pasos que descompone un único programa en múltiples subproblemas. Para verificar la efectividad de este paradigma, el documento crea un punto de referencia de código abierto llamado MTPB que contiene un conjunto diverso de 115 preguntas y lo descompone en indicaciones de múltiples rondas. El análisis de MTPB muestra que mejora significativamente la efectividad de la generación de procedimientos cuando se proporciona la misma intención a CODEGEN en múltiples rondas. El documento también abre la biblioteca de capacitación JAXFORMER y los puntos de control del modelo, y proporciona un enlace: https://github.com/salesforce/CodeGen.

Enlace del artículo: https://www.aminer.cn/pub/6241273e5aee126c0f292b68/?f=cs

8.Instrucciones sobrenaturales: generalización mediante instrucciones declarativas en más de 1600 tareas de PNL

Este artículo explora si los modelos de procesamiento del lenguaje natural pueden generalizarse a una variedad de tareas no observadas cuando se proporcionan instrucciones de tarea. Para abordar este problema, los autores presentan primero el conjunto de referencia Super-NaturalInstructions, que contiene 1.616 tareas diversas de procesamiento del lenguaje natural y sus instrucciones de tareas escritas por expertos. La colección cubre 76 tipos de tareas diferentes, que incluyen, entre otras, clasificación, extracción, llenado, etiquetado de secuencias, reescritura de texto y composición de texto. Este conjunto de tareas a gran escala permite una evaluación rigurosa de la capacidad de generalizar entre tareas bajo instrucciones de tarea: entrenar modelos para seguir un subconjunto de instrucciones y evaluar su desempeño en tareas no observadas. Además, los autores construyeron un modelo Transformer llamado Tk-Instruct, que fue entrenado para seguir instrucciones de tareas en varios contextos (como definiciones de tareas simples o ejemplos de k-shot). En el conjunto de referencia, Tk-Instruct no solo supera la instrucción existente siguiendo modelos como InstructGPT en todos los aspectos que estudiamos, sino que también es un orden de magnitud más pequeño que él. También analizamos cómo varía la capacidad de generalización con la cantidad de tareas de observación, la cantidad de instancias utilizadas por tarea y el tamaño del modelo. Esperamos que nuestros datos y modelos puedan facilitar el progreso futuro hacia modelos de procesamiento del lenguaje natural más generales.

Enlace del artículo: https://www.aminer.cn/pub/625e1a335aee126c0feca4ca/?f=cs

9.UL2: Unificación de paradigmas de aprendizaje de idiomas

Este artículo presenta un paradigma unificado de aprendizaje de idiomas diseñado para ser válido en todos los datos y entornos, en todos los datos y en las diferencias de entorno. Este enfoque propone una perspectiva general y unificada sobre la naturalidad del lenguaje al separar los arquetipos arquitectónicos de los objetivos previos a la capacitación, mostrando que diferentes objetivos previos a la capacitación pueden considerarse equivalentes entre sí, y que diferentes objetivos previos a la capacitación pueden considerarse equivalentes a uno. otro La interpolación es efectiva. Luego se propone la Mezcla de Denoisers (MoD) como un objetivo de preentrenamiento que combina múltiples paradigmas de preentrenamiento, y se introduce un concepto de cambio de modo para el ajuste posterior relacionado con un esquema de preentrenamiento específico. Al realizar metaexperimentos extensos que comparan múltiples objetivos previos al entrenamiento, descubrimos que nuestro enfoque impulsa el frente de Pareto en múltiples entornos diversos y supera a los modelos similares T5 y GPT en cada entorno. Al escalar el modelo a 2 mil millones de parámetros, se logra el máximo rendimiento en 50 tareas de procesamiento de lenguaje natural basadas en ajustes supervisados ​​ampliamente utilizados. El modelo también funciona bien en el aprendizaje contextual, superando al 175B GPT-3 en SuperGLUE de disparo cero y tres veces mejor que al T5-XXL en resumen de un disparo. En MMLU de 0 disparos, UL2 20B supera a los modelos T0 y T5. Además, UL2 20B funciona bien con el razonamiento y las indicaciones de pensamiento en cadena, lo que lo convierte en una opción atractiva para estudiar el razonamiento en escalas de parámetros 20B pequeñas y medianas. Finalmente, el modelo se aplica al ajuste de instrucciones FLAN, logrando puntuaciones MMLU y Big-Bench comparables a FLAN-PaLM 62B. También lanzamos puntos de control T5X basados ​​en Flax para UL2 20B y Flan-UL2 20B.

Enlace del artículo: https://www.aminer.cn/pub/627c6cf55aee126c0f831748/?f=cs

10.OPT: Modelos abiertos de lenguaje Transformer previamente entrenados

Este artículo propone modelos abiertos de lenguaje de transformador pre-entrenado (OPT), que es un conjunto de modelos de transformador pre-entrenados con solo la parte del decodificador, que van desde 125M a 175B parámetros. Estos modelos pueden realizar aprendizaje de datos pequeños y sin disparos, y tienen un rendimiento similar a los modelos de lenguaje existentes, como GPT-3. En comparación, la huella de carbono de OPT durante el desarrollo es solo 1/7 de la de GPT-3. Además, los autores proporcionan el código necesario para realizar los experimentos y un registro de los desafíos de infraestructura enfrentados. A través de este trabajo, los investigadores pueden comprender mejor el funcionamiento interno de grandes modelos de lenguaje, proporcionando una mejor base para futuras investigaciones.

Enlace del artículo: https://www.aminer.cn/pub/62708f625aee126c0fa694a0/?f=cs

11. Ningún lenguaje se queda atrás: ampliación de la traducción automática centrada en las personas

Este artículo analiza cómo la traducción automática se ha convertido en un tema clave en la investigación de la inteligencia artificial con el objetivo de eliminar las barreras del idioma a gran escala. Sin embargo, estos esfuerzos se han centrado principalmente en un pequeño subconjunto de lenguas, mientras que la mayoría de las lenguas predominantemente de bajos recursos han sido descuidadas. Para abordar este problema, los investigadores realizaron entrevistas exploratorias con hablantes nativos de idiomas para comprender la necesidad de apoyo en la traducción de idiomas de bajos recursos. Luego crearon datos y modelos diseñados para cerrar la brecha de rendimiento entre los lenguajes de bajos y altos recursos. Específicamente, desarrollaron un modelo de Computación Condicional basado en una Mezcla de Expertos Sparsely Gated, que está capacitado en técnicas únicas de minería de datos para lenguajes de bajos recursos. Propusieron varias mejoras arquitectónicas y de capacitación para contrarrestar el sobreajuste que se produce al entrenar miles de tareas. Lo más importante es que evaluaron más de 40.000 direcciones de traducción diferentes con el punto de referencia de traducción humana establecido Flores-200 y combinaron la evaluación humana con un nuevo punto de referencia de toxicidad que cubre todos los idiomas Flores-200 para evaluar la seguridad de la traducción. Su modelo mejora la puntuación BLEU en un 44 % en relación con el estado del arte anterior, sentando una base importante para realizar un sistema de traducción universal.

Enlace del artículo: https://www.aminer.cn/pub/62cce6795aee126c0f2a85b2/?f=cs

12.BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B

Se explican los problemas en el desarrollo y uso de grandes modelos de lenguaje (LLM). Aunque los LLM son capaces de realizar nuevas tareas basadas en una pequeña cantidad de demostraciones o instrucciones en lenguaje natural, la mayoría de los LLM son desarrollados por organizaciones ricas en recursos y, a menudo, no están disponibles para el público. Para promover el proceso de democratización de esta poderosa tecnología, los autores presentan BLOOM, un modelo de lenguaje de acceso abierto con parámetros 176B diseñado y construido en colaboración por cientos de investigadores. BLOOM es un modelo de lenguaje Transformer solo decodificador entrenado con el corpus ROOTS, que contiene cientos de fuentes (59 en total) en 46 lenguajes naturales y 13 lenguajes de programación. Los autores descubrieron que BLOOM logró un rendimiento competitivo en varios puntos de referencia y logró mejores resultados después de un rápido ajuste de múltiples tareas. Para promover futuras investigaciones y aplicaciones utilizando LLM, los autores han publicado públicamente el modelo y el código.

Enlace del artículo: https://www.aminer.cn/pub/636c6bec90e50fcafd2d3ff2/?f=cs

13.GLM-130B: un modelo abierto bilingüe previamente entrenado

Este artículo presenta un modelo de lenguaje previamente entrenado bilingüe (inglés y chino) de código abierto GLM-130B, que tiene 130 mil millones de parámetros. El modelo pretende ser al menos tan bueno como GPT-3 y desbloquear los secretos de cómo se puede preentrenar con éxito un modelo de tan gran escala. Durante el desarrollo, los autores enfrentaron muchos desafíos técnicos y de ingeniería inesperados, especialmente relacionados con picos de pérdidas y una convergencia insuficiente. Este artículo describe el proceso de entrenamiento del GLM-130B, incluidas sus opciones de diseño, estrategias de entrenamiento eficientes y estables y esfuerzos de ingeniería. Resultados El GLM-130B supera significativamente al GPT-3 175B en muchos puntos de referencia populares en inglés, mientras que no se observa ninguna ventaja de rendimiento en OPT-175B y BLOOM-176B. En las pruebas de referencia relevantes, el GLM-130B siempre ha superado significativamente al modelo chino más grande ERNIE TITAN 3.0 260B. Finalmente, los autores aprovecharon las propiedades de escala únicas del GLM-130B para lograr la cuantificación INT4 casi sin pérdida de rendimiento, convirtiéndolo en el primer modelo a escala 100B en lograr esta característica. Los pesos del modelo se han hecho públicos y su código, registros de capacitación, kits de herramientas relacionados y experiencias aprendidas también son de código abierto en https://github.com/THUDM/GLM-130B.

Enlace del artículo: https://www.aminer.cn/pub/633e476890e50fcafde59595/?f=cs

14.Ampliación de modelos de lenguaje perfeccionados de instrucción

Este artículo explora métodos de instrucción para ajustar los modelos de lenguaje, con especial énfasis en escalar el número de tareas, el tamaño del modelo y ajustar las cadenas de datos. Las investigaciones muestran que el uso de estos métodos puede mejorar significativamente el rendimiento de varios tipos de modelos (como PALM, T5 y U-PaLM), así como el rendimiento del modelo con un punto de partida cero, poca experiencia y aprendizaje colaborativo. Por ejemplo, Flan-PaLM 540B supera a PALM 540B en un promedio de 9,4% después de realizar ajustes en tareas de 1,8K. Flan-PaLM 540B incluso alcanzó niveles líderes en algunos puntos de referencia, como alcanzar el 75,2% en MMLU de cinco disparos. También lanzamos públicamente Checkpoint para Flan-T5, logrando un excelente rendimiento en la experiencia de las minorías incluso en comparación con modelos grandes como PaLM 62B. En resumen, el ajuste de la instrucción es un método general para mejorar el rendimiento y la usabilidad de los modelos de lenguaje previamente entrenados.

Enlace del artículo: https://www.aminer.cn/pub/63520de890e50fcafd60f4dd/?f=cs

15.Generalización interlingüe mediante ajuste multitarea

Este artículo explora métodos de generalización entre idiomas, utilizando Finetuning multitarea para mejorar la capacidad de generalización de modelos de lenguaje grandes en nuevas tareas. Investigaciones anteriores han demostrado que el ajuste fino de señales de múltiples tareas (MTF) puede ayudar a que los modelos de lenguaje grandes se generalicen a nuevas tareas con cero muestras, pero hasta ahora, la exploración de MTF se ha centrado principalmente en datos y modelos en inglés. Este artículo aplica MTF a las familias de modelos BLOOM y mT5 en varios idiomas previamente entrenados, lo que da como resultado variantes ajustadas denominadas BLOOMZ y mT0. Descubrimos que ajustar un gran modelo de lenguaje multilingüe a tareas en inglés y señales en inglés puede generalizarse a idiomas distintos del inglés que solo aparecen en el conjunto previo al entrenamiento. El ajuste fino mejora aún más el desempeño de tareas en inglés y no inglés en tareas en varios idiomas y indicaciones en inglés, logrando una posición de liderazgo en varios desempeños de muestra cero. También estudiamos el ajuste entre idiomas utilizando la traducción automática para traducir las indicaciones en inglés a los idiomas correspondientes. Descubrimos que el entrenamiento en estas señales de traducción automática mejora el rendimiento de las señales escritas por humanos en los idiomas correspondientes. Sorprendentemente, descubrimos que el modelo puede lograr una generalización cero en tareas lingüísticas que se ven inconscientemente. Nuestra hipótesis es que el modelo está aprendiendo capacidades de alto nivel que son independientes de la tarea y del lenguaje. Además, presentamos xP3, un conjunto de datos sintéticos supervisados ​​que consta de señales de inglés y traducción automática en 46 idiomas. Nuestro código, conjuntos de datos y modelos están disponibles públicamente en https://github.com/bigscience-workshop/xmtf.

Enlace del artículo: https://www.aminer.cn/pub/636482d790e50fcafdccae4e/?f=cs

16.Galáctica: un gran modelo de lenguaje para la ciencia

Este artículo presenta un modelo de lenguaje a gran escala llamado Galactica que puede almacenar, combinar y razonar sobre el conocimiento científico. El modelo se basa en una gran cantidad de textos científicos, referencias, bases de conocimiento y otras fuentes, y supera a los modelos existentes en una variedad de tareas científicas. En términos de pruebas de conocimientos técnicos, como las ecuaciones LaTeX, Galactica tuvo un mejor desempeño que el último GPT-3, logrando una tasa de éxito del 68,2%, en comparación con solo el 49,0% del GPT-3. Galactica también tuvo un buen desempeño en razonamiento, obteniendo un mejor desempeño que Chinchilla en la prueba MMLU de matemáticas, alcanzando un 41,3%, y un desempeño mejor que PaLM 540B en la prueba MATH, alcanzando un 20,4%. Además, Galactica también ha creado nuevos picos en tareas posteriores, como las versiones de desarrollo de las tareas de preguntas y respuestas de PubMedQA y MedMCQA, alcanzando una precisión del 77,6 % y 52,9 % respectivamente. Aunque este modelo no fue entrenado en un corpus común, aún supera a modelos como BLOOM y OPT-175B. Creemos que estos resultados demuestran el potencial de los modelos de lenguaje como interfaces científicas, por lo que ponemos el modelo a disposición del público para beneficiar a la comunidad científica.

Enlace del artículo: https://www.aminer.cn/pub/6375a67190e50fcafd3e1d4a/?f=cs

17.OPT-IML: Metaaprendizaje de instrucción de modelo de lenguaje escalable a través de la lente de la generalización

Este artículo investiga el ajuste de un gran modelo de lenguaje previamente entrenado a un conjunto de tareas, llamado ajuste de instrucciones, para mejorar su capacidad de generalización cuando se enfrenta a muestras pequeñas o nulas de tareas invisibles. Sin embargo, se sabe poco sobre el impacto de las diferentes decisiones en el desempeño de las tareas posteriores durante el ajuste de la instrucción. Estas decisiones incluyen instrucciones sobre el tamaño y la calidad del punto de referencia de ajuste, diferentes estrategias de muestreo de tareas, si se deben utilizar demostraciones, entrenamiento especial de conjuntos de datos para el razonamiento y el diálogo y, en última instancia, los objetivos del ajuste. Para abordar este problema, los autores crearon un punto de referencia de ajuste fino de instrucciones a gran escala llamado OPT-IML Bench, que contiene 2000 tareas de procesamiento del lenguaje natural integradas en categorías de tareas de 8 puntos de referencia existentes. También preparamos un marco de evaluación para este marco para medir la capacidad de generalización del modelo en tres tipos diferentes: tareas completamente desconocidas, tareas desconocidas a tareas conocidas e instancias desconocidas de tareas conocidas. Con este marco, primero mostramos el impacto de las decisiones de ajuste de instrucciones cuando se aplican al modelo OPT-30B, y utilizamos estos conocimientos para entrenar OPT-IML 30B y 175B, que son modelos OPT de ajuste preciso de instrucciones. OPT-IML demuestra tres capacidades de generalización en cuatro puntos de referencia de evaluación diferentes, incluidos PromptSource, FLAN, Super-NaturalInstructions y UnifiedSKG. No sólo supera con creces a OPT en todos los puntos de referencia, sino que también funciona a la par con los modelos existentes después de haber sido ajustado en puntos de referencia específicos. Lanzamos OPT-IML en dos escalas y junto con el marco de evaluación OPT-IML Bench.

Enlace del artículo: https://www.aminer.cn/pub/63a910a290e50fcafd2a84fd/?f=cs

19.Pythia: una suite para analizar modelos de lenguaje grandes a través de entrenamiento y escalamiento

Este artículo presenta un sistema llamado "Pythia" que tiene como objetivo proporcionar un análisis en profundidad de cómo se desarrollan y evolucionan los modelos de lenguaje grandes (es decir, LLM) durante el entrenamiento, y cómo estos patrones cambian a medida que el modelo crece. El sistema incluye 16 LLM, todos capacitados con los mismos datos públicos y cuyo tamaño varía entre 70 millones y 12 mil millones de parámetros. El sistema también proporciona 154 puntos de control, así como herramientas para descargar y reconstruir el proceso de capacitación preciso para su posterior estudio. Este artículo proporciona múltiples casos de investigación, incluidos nuevos resultados en la memoria, el impacto de la frecuencia de los términos en el rendimiento de muestras pequeñas y la reducción del sesgo de género. Al mostrar cómo este enfoque de investigación altamente controlado puede generar nuevos conocimientos sobre los LLM y su dinámica de formación, los autores muestran que el sistema "Pythia" puede ayudar a obtener conocimientos sobre los LLM y facilitar la investigación relacionada. Todos los modelos de entrenamiento, código de análisis, código de entrenamiento y datos de entrenamiento se pueden encontrar en https://github.com/EleutherAI/pythia.

Enlace del artículo: https://www.aminer.cn/pub/642ce6f390e50fcafde74c79/?f=cs

20.LLaMA: Modelos de lenguaje básico abiertos y eficientes

Este artículo presenta LLaMA, un modelo de lenguaje básico con parámetros de 7B a 65B. Los autores se entrenaron con billones de tokens y demostraron que es posible entrenar modelos de última generación utilizando conjuntos de datos disponibles públicamente sin tener que depender de conjuntos de datos propietarios e inaccesibles. Entre ellos, LLaMA-13B supera a GPT-3 (175B) en la mayoría de las pruebas, mientras que LLaMA-65B es competitivo con los mejores modelos, Chinchilla-70B y PaLM-540B. Los autores comparten todos los modelos con la comunidad de investigación.

Enlace del artículo: https://www.aminer.cn/pub/63fd715e90e50fcafd14767c/?f=cs

21.CodeGeeX: un modelo previamente entrenado para la generación de código con evaluaciones multilingües en HumanEval-X

Este artículo presenta CodeGeeX, un modelo de generación de código en varios idiomas con 1.300 millones de parámetros. El modelo fue entrenado previamente con 85 mil millones de palabras en junio de 2022 en función de 23 lenguajes de programación. Nuestros experimentos muestran que CodeGeeX supera a modelos de código multilingüe similares tanto en tareas de generación de código como de traducción, y nos basamos en el punto de referencia HumanEval-X para evaluar modelos multilingües con soluciones escritas a mano en C++, Java, JavaScript y Go. También desarrollamos extensiones de Visual Studio Code, JetBrains y Cloud Studio basadas en CodeGeeX, que generan 470 millones de palabras por semana para cientos de miles de usuarios activos. Nuestra investigación de usuarios muestra que CodeGeeX puede ayudar al 83,4% de los usuarios a mejorar la eficiencia de la codificación. Finalmente, CodeGeeX está disponible públicamente y es de código abierto, los pesos de los modelos (versión de 85 mil millones de palabras), la API, las extensiones y el punto de referencia HumanEval-X en su GitHub en septiembre de 2022.

Enlace del artículo: https://www.aminer.cn/pub/64264f7b90e50fcafd68e145/?f=cs

22.MiniGPT-4: Mejora de la comprensión del lenguaje y la visión con modelos avanzados de lenguaje grande

Este artículo explora cómo utilizar modelos de lenguaje grande (LLM) más avanzados para mejorar la comprensión del lenguaje visual. Introdujeron el modelo MiniGPT-4, que alinea el codificador visual congelado y el LLM Vicuña congelado a través de una capa de proyección. Las investigaciones muestran que MiniGPT-4 tiene muchas características similares a GPT-4, como generar descripciones detalladas de imágenes y crear sitios web a partir de borradores escritos a mano. Además, también observamos que MiniGPT-4 tiene capacidades emergentes como generar historias, poemas y resolver problemas. En experimentos, descubrimos que el entrenamiento previo utilizando solo pares originales de imagen y texto puede dar como resultado un lenguaje que carece de coherencia, incluidas oraciones repetidas y fragmentadas. Para abordar este problema, utilizamos un conjunto de datos alineados y de alta calidad para realizar ajustes en la segunda etapa, entrenado mediante plantillas de diálogo. Este paso es crucial y aumenta la confiabilidad de la generación del modelo y su usabilidad general. En particular, nuestro modelo es altamente eficiente desde el punto de vista computacional, ya que solo utilizamos aproximadamente 5 millones de pares de imagen y texto alineados para entrenar la capa de proyección.

Enlace del artículo: https://www.aminer.cn/pub/6442336c4c80727584270e42/?f=cs

23.Alpaca: un modelo fuerte y replicable que sigue instrucciones

Este artículo presenta un modelo de seguimiento de instrucciones potente y replicable llamado Alpaca. A medida que los modelos de seguimiento de comandos como GPT-3.5 (text-davinci-003), ChatGPT, Claude y Bing Chat se vuelven más poderosos, muchos usuarios ahora interactúan regularmente con estos modelos e incluso los usan para realizar su trabajo. Sin embargo, a pesar de su despliegue generalizado, estos modelos todavía tienen muchos defectos: pueden generar desinformación, difundir estereotipos sociales y generar lenguaje tóxico.

Enlace del artículo: https://www.aminer.cn/pub/64eef34b12da7235fe62adac/?f=cs

24.Llama 2: Fundación abierta y modelos de chat optimizados

Este artículo presenta Llama 2, una colección de modelos de lenguaje grande (LLM) previamente entrenados y optimizados que van desde 7 mil millones a 70 mil millones de parámetros. Entre ellos, Llama 2-Chat es un LLM optimizado para escenarios de conversación y funciona mejor que los modelos de chat de código abierto en la mayoría de los puntos de referencia probados. Según nuestra evaluación humana de utilidad y seguridad, Llama 2-Chat puede ser un reemplazo adecuado para el modelo de código cerrado. El documento describe en detalle los métodos de ajuste y mejora de la seguridad de Llama 2-Chat para facilitar que la comunidad construya sobre esta base y promueva el desarrollo responsable de LLM.

Enlace del artículo: https://www.aminer.cn/pub/64b758dd1a5852438b7976ff/?f=cs

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/133019675
Recomendado
Clasificación