LLM Paper Weekly | Investigación sobre artículos de vanguardia de la Universidad de Tsinghua, la Universidad de Pekín, Meta AI y otras instituciones

Large Model (LLM) es un modelo de inteligencia artificial diseñado para comprender y generar el lenguaje humano. Están capacitados con grandes cantidades de datos de texto y pueden realizar una amplia gama de tareas, incluido el resumen de texto, la traducción, el análisis de opiniones y más. Los LLM se caracterizan por su gran escala y contienen miles de millones de parámetros, lo que les ayuda a aprender patrones complejos en datos lingüísticos. Estos modelos suelen basarse en arquitecturas de aprendizaje profundo, como transformadores, lo que les ayuda a lograr un rendimiento impresionante en una variedad de tareas de PNL.

A finales de 2022, OpenAI lanzó ChatGPT, un modelo de lenguaje a gran escala basado en GPT-3.5. Debido a su excelente rendimiento, ChatGPT y el modelo de lenguaje a gran escala detrás de él se convirtieron rápidamente en un tema candente en el campo de la inteligencia artificial. atrayendo la atención y la atención de un gran número de investigadores y desarrolladores científicos.

Esta semana hemos seleccionado 10 artículos destacados en el campo del LLM, de instituciones como Meta AI, la Universidad de Pekín y la Universidad de Tsinghua.

1.Aprendizaje por refuerzo para la IA generativa: una encuesta

El paradigma utilizado actualmente principalmente para entrenar modelos generativos es la estimación de máxima verosimilitud, que captura y aproxima la distribución de datos objetivo reduciendo la diferencia entre la distribución del modelo y la distribución objetivo. Aunque este enfoque establece con éxito los objetivos de la tarea generativa, no puede satisfacer todos los requisitos de los usuarios para los modelos generativos. El aprendizaje por refuerzo, como alternativa competitiva para inyectar nuevas señales de entrenamiento mediante la creación de nuevos objetivos, demuestra su capacidad para aprovechar las preferencias inductivas humanas desde múltiples perspectivas (por ejemplo, aprendizaje contradictorio, reglas diseñadas manualmente y modelos de recompensa de aprendizaje) para construir un poder y flexibilidad. de un modelo de altas prestaciones. Por lo tanto, el aprendizaje por refuerzo se ha convertido en un punto de investigación y ha ampliado los límites de la inteligencia artificial generativa en términos de diseño y aplicación de modelos. El artículo presenta una revisión exhaustiva que resume los avances realizados en este campo en los últimos años. Aunque ha habido algunos informes de encuestas recientes en diferentes áreas de aplicación, el propósito de este artículo es proporcionar una descripción general de alto nivel de múltiples áreas de aplicación. Proporcionamos una taxonomía rigurosa en el campo con una cobertura adecuada de diversos modelos y aplicaciones. En particular, también examinamos el campo de rápido crecimiento de los modelos lingüísticos a gran escala. El artículo concluye mostrando posibles direcciones que podrían abordar las limitaciones del modelo actual y ampliar los límites de la IA generativa.

Enlace: https://www.aminer.cn/pub/64ed716d3fda6d7f0658aa83

2. Nougat: comprensión óptica neuronal para documentos académicos

El artículo explica que el conocimiento científico se almacena principalmente en libros y revistas científicas, a menudo en forma de archivos PDF. Sin embargo, el formato PDF conlleva la pérdida de información semántica, especialmente en el caso de expresiones matemáticas. Para resolver este problema, los autores proponen un modelo de transformador visual llamado Nougat, que puede realizar el procesamiento de reconocimiento óptico de caracteres (OCR) de documentos científicos y convertirlos en un lenguaje de marcado. Al demostrar la eficacia del modelo en un nuevo conjunto de datos de documentos científicos, los autores muestran que este enfoque ofrece una solución prometedora para mejorar la accesibilidad del conocimiento científico en la era digital, cerrando la brecha entre los documentos legibles por humanos y los legibles por máquinas. texto. Los autores publican el modelo y el código para acelerar el trabajo futuro en el reconocimiento de textos científicos.

Enlace: https://www.aminer.cn/pub/64ec1b7e3fda6d7f06270245

3. InstrucciónGPT-4: un paradigma de 200 instrucciones para ajustar MiniGPT-4

Estos modelos obtienen la capacidad de seguir instrucciones a través de un proceso de entrenamiento de dos etapas de preentrenamiento de pares de imagen y texto y ajuste de los datos de instrucción del lenguaje visual. Investigaciones recientes muestran que los modelos de lenguaje grandes pueden lograr resultados satisfactorios incluso con un número limitado de instrucciones de alta calidad siguiendo los datos. Este artículo presenta la InstrucciónGPT-4, que está ajustada solo en un pequeño conjunto de datos que consta de 200 ejemplos, equivalente a ~6% de la instrucción siguiente a los datos utilizados en el conjunto de datos alineado MiniGPT-4. Los autores primero proponen varias métricas para evaluar la calidad de los datos de instrucción multimodal. Con base en estas métricas, proponen un selector de datos simple pero efectivo que puede identificar y filtrar automáticamente datos de lenguaje visual de baja calidad. Al adoptar este enfoque, InstrucciónGPT-4 supera al MiniGPT-4 original en varias evaluaciones (por ejemplo, respuesta visual a preguntas, preferencia de GPT-4). En general, los resultados muestran que los datos de ajuste de instrucción pequeños pero de alta calidad pueden permitir de manera efectiva que los modelos de lenguaje grandes multimodales generen mejores resultados.

Enlace: https://www.aminer.cn/pub/64e6d5bd3fda6d7f0652c7f8

4. Modelos de gráficos grandes: una perspectiva

El documento señala que en los campos de la inteligencia artificial y el aprendizaje automático, los modelos grandes han logrado avances importantes, pero en el campo de los gráficos, especialmente en otros campos como el procesamiento del lenguaje natural y la visión por computadora, los modelos grandes aún no han logrado lo mismo. éxito. Para avanzar en la adopción de grandes modelos gráficos, este artículo presenta un artículo de perspectiva que analiza los desafíos y oportunidades en el desarrollo de grandes modelos gráficos. Primero, el artículo analiza las propiedades deseables de los modelos gráficos grandes. Luego, se analiza en detalle desde tres perspectivas importantes: base de representación, datos gráficos y modelo gráfico. Dentro de cada categoría, el documento presenta brevemente los avances recientes, destaca los desafíos pendientes y nuestras perspectivas. Finalmente, el artículo analiza aplicaciones valiosas de grandes modelos gráficos. El artículo cree que este artículo de perspectiva puede fomentar una mayor exploración de grandes modelos gráficos, acercándonos en última instancia un paso más a la inteligencia artificial general (AGI).

Enlace: https://www.aminer.cn/pub/64ed716d3fda6d7f0658ab4a

5. Aprendizaje profundo computacionalmente eficiente para visión por computadora: una encuesta

Si bien los modelos de aprendizaje profundo han mostrado grandes avances en las tareas de visión por computadora, los recursos informáticos que requieren también están aumentando, lo que plantea algunos desafíos para las aplicaciones del mundo real. Los modelos avanzados existentes a menudo requieren grandes cantidades de recursos informáticos, lo que puede resultar en un consumo de energía, latencia o emisiones de carbono poco realistas en escenarios del mundo real. Para minimizar el costo computacional durante la inferencia, el campo de la visión por computadora ha comenzado a centrarse en el aprendizaje profundo computacionalmente eficiente. La revisión proporcionada en este resumen proporciona un análisis extenso de este campo de rápido crecimiento, que cubre cuatro aspectos principales: 1) el desarrollo de modelos troncales livianos estáticos o dinámicos para la extracción eficiente de representaciones profundas discriminativas; 2) estructuras de red especializadas o algoritmos diseñados para tareas de visión por computadora; 3) técnicas para comprimir modelos de aprendizaje profundo; y 4) estrategias para implementar redes profundas eficientes en plataformas de hardware. Además, el resumen también proporciona una discusión sistemática de los desafíos clave que enfrenta el campo, como el diseño de la arquitectura de red, los esquemas de capacitación, la eficiencia práctica y métodos de compresión de modelos más realistas, así como posibles direcciones de investigación futuras.

Enlace: https://www.aminer.cn/pub/64ed716d3fda6d7f0658a92f

6. LM-Infinite: Generalización de longitud simple sobre la marcha para modelos de lenguaje grandes

Este artículo es una descripción general de la investigación sobre agentes autónomos basados en grandes modelos de lenguaje. Las investigaciones anteriores a menudo se centraban en entrenar agentes en entornos aislados con conocimientos limitados, lo que estaba lejos del proceso de aprendizaje humano, lo que dificultaba que los agentes lograran una toma de decisiones similar a la humana. En los últimos años, los grandes modelos de lenguaje (LLM) han demostrado un gran potencial para lograr inteligencia a nivel humano mediante la adquisición de grandes cantidades de conocimiento de redes. Esto ha provocado un aumento en la investigación sobre agentes autónomos basados en LLM. Para aprovechar al máximo el potencial de LLM, los investigadores han diseñado varias arquitecturas de agentes para diferentes aplicaciones. En este artículo, llevamos a cabo una revisión sistemática de estos estudios en su conjunto. Específicamente, nos centramos en la construcción de agentes basados en LLM, para lo cual proponemos un marco unificado que cubre la mayor parte del trabajo anterior. Además, proporcionamos una descripción general de diversas aplicaciones de agentes de inteligencia artificial basados en LLM en los campos de las ciencias sociales, las ciencias naturales y la ingeniería. Finalmente, analizamos estrategias comunes para evaluar agentes de inteligencia artificial basados en LLM. Basándonos en investigaciones previas, también proponemos varios desafíos y direcciones futuras en este campo.

Enlace: https://www.aminer.cn/pub/64f00ff53fda6d7f06eced18

7.LLaSM: Modelo de habla y lenguaje grande

La mayoría de las investigaciones actuales se centran en modelos multimodales visual-verbales, que tienen fuertes capacidades para comprender y ejecutar instrucciones visual-verbales. Sin embargo, los autores afirman que el habla también es una forma importante en la que los humanos interactúan con el mundo, por lo que es crucial que un asistente universal sea capaz de comprender y seguir instrucciones multimodales de habla y lenguaje. Para ello, los autores proponen un modelo de lenguaje y habla a gran escala (LLaSM). LLaSM es un modelo de habla y lenguaje multimodal a gran escala entrenado de extremo a extremo con capacidades conversacionales intermodales y la capacidad de seguir instrucciones de habla y lenguaje. Los primeros experimentos muestran que LLaSM demuestra una forma más conveniente y natural para que los humanos interactúen con la inteligencia artificial. Además, el autor también publicó un gran conjunto de datos de instrucciones de voz LLaSM-Audio-Instructions.

Enlace: https://www.aminer.cn/pub/64f00ff43fda6d7f06ecec49

8.Red de difusión de doble flujo para generación de texto a video

Existe un cuello de botella importante en el campo de la generación de texto a video, es decir, los videos generados a menudo tienen algunos parpadeos y artefactos. Los autores proponen una red de difusión de doble flujo (DSDN) para mejorar la coherencia de los cambios de contenido en los vídeos generados. Este método funciona diseñando dos flujos de difusión, contenido de video y ramas dinámicas, para ejecutarse por separado en un espacio privado para producir cambios de video y contenido personalizados, y utilizando el módulo de interacción de convertidor cruzado diseñado por el autor entre el contenido y los dominios dinámicos. alineación, lo que beneficia la suavidad del vídeo generado. Además, el autor también presenta descomponedores y combinadores de movimiento para facilitar la manipulación del movimiento del video. Los experimentos cualitativos y cuantitativos muestran que el método es capaz de generar impresionantes vídeos continuos con menos parpadeo. Por lo tanto, el resumen ilustra el problema del parpadeo y los artefactos en los videos generados y propone una solución con una red de difusión de dos flujos.

Enlace: https://www.aminer.cn/pub/64dd9b053fda6d7f0622e793

9. Enseñe a los LLM a personalizar: un enfoque inspirado en la educación en escritura

El artículo propone un nuevo método para resolver el problema de la generación de texto personalizado. Actualmente, la investigación en este campo se centra principalmente en resolver problemas de generación de texto personalizado de dominios específicos mediante el diseño de características o modelos personalizados. Sin embargo, el método propuesto en este artículo se basa en la práctica de la educación en escritura mediante el desarrollo de un marco de múltiples etapas y tareas múltiples para enseñar modelos de lenguaje grandes (LLM) para una generación personalizada. Este marco descompone la tarea de generación de texto personalizado en múltiples etapas, como recuperación, clasificación, resumen, síntesis y generación. Al mismo tiempo, el método también introduce una configuración de tareas múltiples para mejorar aún más la capacidad generativa del modelo, que se basa en la observación educativa de que la capacidad de lectura y la capacidad de escritura de los estudiantes generalmente están relacionadas. Evaluados en tres conjuntos de datos públicos, los resultados muestran que el método propuesto logra mejoras significativas en la generación de texto personalizado en comparación con varios métodos de referencia.

Enlace: https://www.aminer.cn/pub/64dd9b053fda6d7f0622e61f

10. OmniQuant: Cuantización calibrada omnidireccionalmente para modelos de lenguajes grandes

Los métodos recientes de cuantificación posterior al entrenamiento (PTQ) pueden reducir la huella de memoria y mejorar la eficiencia computacional de LLM, pero diseñan manualmente los parámetros de cuantificación, lo que resulta en un menor rendimiento y no pueden manejar una cuantificación de bits extremadamente bajos. Para resolver este problema, los autores introdujeron una tecnología llamada Cuantización calibrada omnidireccional (OmniQuant), que logra un buen rendimiento en diferentes configuraciones de cuantificación al optimizar efectivamente varios parámetros de cuantificación mientras se mantiene la eficiencia computacional de PTQ.

Enlace: https://www.aminer.cn/pub/64ec1b763fda6d7f0626f449

¿Cómo utilizar ChatPaper?

El método para usar ChatPaper es muy simple: abra la página de inicio de AMiner e ingrese a la página de ChatPaper desde la barra de navegación en la parte superior de la página o en la esquina inferior derecha.

Insertar descripción de la imagen aquí