LLM Weekly Paper|Frontier paper research de Google, Huawei, la Universidad de Stanford, la Universidad de Hong Kong y otras instituciones

Un modelo grande (LLM) es un modelo de inteligencia artificial diseñado para comprender y generar lenguaje humano. Están capacitados en grandes cantidades de datos de texto y pueden realizar una amplia gama de tareas, que incluyen resúmenes de texto, traducción, análisis de sentimientos y más. Los LLM se caracterizan por su gran escala, que contiene miles de millones de parámetros, que les ayudan a aprender patrones complejos en datos lingüísticos. Estos modelos a menudo se basan en arquitecturas de aprendizaje profundo como Transformers, lo que les ayuda a lograr un rendimiento impresionante en varias tareas de NLP.

A fines de 2022, OpenAI lanzó ChatGPT, un modelo de lenguaje a gran escala basado en GPT-3.5. Debido a su excelente rendimiento, ChatGPT y el modelo de lenguaje a gran escala detrás de él se convirtieron rápidamente en un tema candente en el campo de la inteligencia artificial. atraer la atención de investigadores y desarrolladores.participar.

Esta semana, se seleccionaron 10 excelentes trabajos en el campo de LLM, de Google, Huawei, la Universidad de Stanford, la Universidad de Hong Kong y otras instituciones.

Para facilitar la lectura, solo se enumeran el título del artículo, el autor, el resumen de ChatPaper y otra información. Si está interesado, puede hacer clic en el enlace para ver el texto original, la sincronización de datos del lado de la PC (la colección se puede ver en la PC lado), y los nuevos periódicos diarios también pueden iniciar sesión en la vista de programa de página pequeña.

Entrada de ChatPaper: https://www.aminer.cn/chat/g

1. CAME: página de detalles del documento de optimización eficiente de la memoria adaptativa guiada por la confianza

Autores: Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang, Yang You

Enlace: https://www.aminer.cn/pub/64a63bddd68f896efaec6604/?f=cs

Revisión de ChatPaper: este documento analiza que los métodos de gradiente adaptativo como Adam y LAMB muestran un rendimiento muy bueno cuando se entrenan modelos de lenguaje grandes, pero necesitan mantener estimaciones de momento de segundo orden para cada gradiente de parámetro, lo que requiere una sobrecarga de memoria adicional. Para abordar este problema, el documento propone CAME, un optimizador adaptable de memoria eficiente basado en una guía confiable. CAME reduce la inestabilidad de los optimizadores eficientes en memoria existentes mediante el uso de una estrategia de orientación confiable. Con base en esta estrategia, CAME logra simultáneamente dos objetivos: convergencia rápida como los métodos adaptativos tradicionales y bajo uso de memoria como los métodos eficientes en memoria. Amplios resultados experimentales muestran que CAME es estable y funciona bien en una variedad de tareas de procesamiento de lenguaje natural, especialmente en el gran tamaño de lote 32,768 de BERT pre-entrenamiento En comparación con el optimizador de Adam, nuestro método propuesto logra una convergencia más rápida y una mayor precisión. Las implementaciones de CAME están disponibles públicamente.

2. BiPhone: modelado de influencias fonéticas entre idiomas en la página de detalles del artículo de texto

Intérpretes: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer

Enlace: https://www.aminer.cn/pub/64ab82833fda6d7f06f77db1/?f=cs

Revisión de ChatPaper: este artículo analiza que muchas personas se ven obligadas a comunicarse en Internet en un segundo idioma (L2) con el que no están familiarizados debido a razones como la asimetría tecnológica, lo que hace que los textos L2 a menudo contengan una gran cantidad de errores, lo que se ven afectados por la influencia de su lengua materna (L1). El documento propone un método para extraer confusiones del habla entre L1 y L2 (es decir, voces en L2 que los oyentes de L1 pueden confundir) e inyectar estas confusiones en un modelo generativo (Bi-Phone) para generar degradaciones sintéticas del texto L2. A través de la evaluación humana, el documento muestra que Bi-Phone puede generar corrupciones plausibles que varían en diferentes L1, y que esta corrupción tiene una amplia cobertura en la Web. Además, al aplicar esta técnica de corrupción a SuperGLUE, un popular punto de referencia de comprensión del lenguaje, el documento encuentra que los modelos de comprensión del lenguaje SoTA funcionan mal con este enfoque. Además, el documento también presenta una nueva tarea de preentrenamiento de predicción de voz, que puede ayudar al modelo de bytes a restaurar el rendimiento cercano a SuperGLUE. Finalmente, el documento también publica un punto de referencia llamado FunGLUE para facilitar una mayor investigación sobre modelos de lenguaje sólidos para el lenguaje hablado.

3. VoxPoser: Mapas de valor 3D componibles para manipulación robótica con modelos de lenguaje página de detalles del artículo

Autores: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei

Enlace: https://www.aminer.cn/pub/64abee0f286e8b4b6fcd5c84/?f=cs

Revisión de ChatPaper: este documento tiene como objetivo sintetizar trayectorias dinámicas de robots para una gran cantidad de tareas diferentes para la manipulación robótica utilizando modelos de lenguaje grandes (LLM). Antes de esto, la mayoría de las investigaciones sobre manipulación robótica se basaban en patrones de locomoción predefinidos que limitaban en gran medida las capacidades interactivas del robot. El documento propone un método que aprovecha las capacidades de inferencia de los LMM y la capacidad de escribir código, interactuando con modelos de lenguaje visual (VLM) para generar mapas de valor 3D y usándolos en un marco de planificación basado en modelos para sintetizar bucles cerrados con valor cero. disparó la trayectoria del robot mientras era robusto a las perturbaciones dinámicas. El marco también aprovecha la experiencia en línea para aprender de manera eficiente modelos dinámicos que están expuestos a escenas ricas. El método se ha estudiado a gran escala en entornos robóticos reales y simulados, demostrando la capacidad de realizar más de 30 tareas de manipulación robótica cotidianas especificadas por descripciones de texto libre.

4. PolyLM: una página de detalles en papel del modelo de lenguaje grande políglota de código abierto

Autores: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie

Enlace: https://www.aminer.cn/pub/64af76ed3fda6d7f0647132f/?f=cs

Revisión de ChatPaper: este documento presenta un modelo de lenguaje a gran escala multilingüe de código abierto llamado PolyLM, que mejora su capacidad multilingüe fusionando datos bilingües y adoptando estrategias de aprendizaje curricular, e incorpora datos bilingües en los datos de capacitación. Además, se propone un método autoguiado multilingüe, que puede generar automáticamente 132.700 instrucciones multilingües diversas para el ajuste fino del modelo. A través de extensos experimentos, el documento muestra que PolyLM se desempeña bien en tareas multilingües, a la par que los modelos de código abierto existentes LLaMA y BLOOM en inglés.

5. Página de detalles del artículo Enseñanza de la aritmética a pequeños transformadores

Intérpretes: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos

Enlace: https://www.aminer.cn/pub/64ab82833fda6d7f06f77dee/?f=cs

Revisión de ChatPaper: este artículo estudia cómo enseñar operaciones aritméticas básicas a pequeños modelos de Transformer. Descubrimos que los modelos pequeños de Transformer entrenados con grandes cantidades de datos de texto pueden aprender de manera eficiente operaciones aritméticas como la suma, la multiplicación y las funciones básicas de raíz cuadrada a partir de la inicialización aleatoria. Primero demostramos que los datos de entrenamiento tradicionales no son los más eficientes para el aprendizaje aritmético y que los cambios simples en el formato de los datos pueden mejorar significativamente la precisión. A medida que crecen los datos de entrenamiento, hay un cambio de fase pronunciado, que puede explicarse por un vínculo relacionado con el relleno de matriz de bajo rango. En base a esto, utilizamos los datos de ideas encadenados, incluidos los resultados de los pasos intermedios, para el entrenamiento. Incluso sin entrenamiento previo, este enfoque puede mejorar significativamente la precisión, la complejidad de la muestra y la velocidad de convergencia simultáneamente. También investigamos la interacción entre la aritmética y los datos de texto, y examinamos los efectos de algunas pistas, el entrenamiento previo y el tamaño del modelo. Además, discutimos los desafíos de generalización de longitud. Nuestro trabajo destaca la importancia de los datos guiados de alta calidad que deben tener en cuenta la naturaleza especial de los objetivos de predicción del siguiente token para inducir rápidamente la capacidad aritmética.

6. Lost in the Middle: How Language Models Use Long Contexts página de detalles del artículo

Intérpretes: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michelle Bevilacqua, Fabio Petroni, Percy Liang

Enlace: https://www.aminer.cn/pub/64a78f1fd68f896efa01eb25/?f=cs

Revisión de ChatPaper: este artículo estudia cómo los modelos de lenguaje usan contextos largos. Aunque en los últimos años han aparecido algunos modelos de lenguaje capaces de manejar contextos largos, se sabe menos sobre cómo los modelos de lenguaje utilizan la información en contextos largos. Este documento analiza dos tareas que requieren identificar información relevante del contexto de entrada: la respuesta a preguntas de varios documentos y la recuperación de valores clave. Se encontró que los modelos de lenguaje tienden a funcionar mejor cuando adquieren información al principio o al final del contexto de entrada, mientras que adquirir información en medio de contextos largos puede degradar significativamente el rendimiento. Además, para los modelos de contexto largo, un aumento en la longitud del contexto de entrada degrada significativamente el rendimiento. El análisis de este documento proporciona nuevos conocimientos sobre cómo los modelos de lenguaje emplean el contexto de entrada y proporciona nuevos criterios de evaluación para futuros modelos de contexto largo.

7.VideoGLUE: Video Comprensión general Evaluación de la página de detalles del artículo de Foundation Models

Autores: Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang, Ting LiuBoqing Gong

Enlace: https://www.aminer.cn/pub/64a78f1fd68f896efa01eb1f/?f=cs

Revisión de ChatPaper: este documento evalúa la capacidad del modelo de base existente en la comprensión de videos, utilizando un protocolo experimental bien diseñado, que incluye tres tareas históricas (reconocimiento de acciones, posicionamiento temporal y posicionamiento espacio-temporal), y ocho son bienvenidos por los conjuntos de datos de la comunidad, y cuatro formas de ajustar los modelos básicos para las tareas posteriores. Además, también proponemos una métrica VideoGLUE Score (VGS) para medir la eficacia y la eficiencia de los modelos básicos en tareas generales de comprensión de videos. Nuestros resultados muestran que el modelo de especialización de tareas supera significativamente a los seis modelos básicos que estudiamos, lo cual es bastante diferente de los logros de los modelos básicos en lenguaje natural y comprensión de imágenes. Además, los modelos de base nativos de video (que incluyen patrones de video en datos previamente entrenados) generalmente funcionan mejor que los modelos de base nativos de imagen en la clasificación de videos ricos en movimiento, la localización temporal de acciones y la comprensión de videos con múltiples acciones. El tercer hallazgo muestra que, para las tareas de video, los modelos básicos nativos de video funcionan bien cuando se adaptan ligeramente a las tareas posteriores (como congelar la columna vertebral de un modelo básico), mientras que los modelos básicos nativos de imagen funcionan mejor cuando están totalmente bien de extremo a extremo. -sintonizado Las dos primeras observaciones apuntan a la necesidad de centrarse en la investigación de modelos de base para el enfoque de video, y la última observación muestra que las tareas y los métodos de adaptación son cruciales para la evaluación de modelos de base.

8. Transformador enfocado: Capacitación contrastiva para la página de detalles del documento de escalamiento de contexto

Intérpretes: Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski, Piotr Miłoś

Enlace: https://www.aminer.cn/pub/64a78f1fd68f896efa01eb23/?f=cs

Revisión de ChatPaper: este artículo estudia cómo resolver el problema de la mala memoria en la memoria externa mediante el entrenamiento contrastivo.El contenido de la memoria en la memoria externa consiste en (clave, valor). A medida que aumenta la cantidad de documentos, disminuye la cantidad de claves relevantes, lo que hace que el modelo se centre más en las que no son claves. Esta situación se denomina problema de interferencia. Para resolver este problema, los autores proponen la técnica Focused Transformer (FoT), que utiliza entrenamiento contrastivo para mejorar la estructura del espacio (clave, valor), extendiendo así la longitud del contexto. Los autores también muestran que el ajuste fino de los modelos de lenguaje grande existentes mediante el uso de técnicas FoT puede ampliar su contexto efectivo. Los resultados empíricos muestran que el modelo LongLLaMA que utiliza la técnica FoT logra avances en tareas que requieren un contexto largo, como la recuperación de contraseñas. También se demuestra que el modelo LongLLaMA puede manejar de manera eficiente 256 mil longitudes de contexto, lo que anteriormente era intratable.

9. GPT4RoI: instrucción Tuning Large Language Model en la página de detalles del papel de la región de interés

Autores: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo

Enlace: https://www.aminer.cn/pub/64ab828f3fda6d7f06f78840/?f=cs

Revisión de ChatPaper: este documento propone un nuevo método llamado GPT4RoI para ajustar un modelo de lenguaje a gran escala (LLM) utilizando instrucciones regionales para una comprensión multimodal más precisa. Los métodos tradicionales de entrenamiento de instrucción de imagen a texto solo pueden establecer una alineación visual-lingüística a nivel de imagen, sin alineación a nivel de región, lo que limita su progreso en la comprensión multimodal de grano fino. En este artículo, el autor propone un método llamado ajuste fino de instrucción regional, que utiliza instrucciones regionales para convertir el cuadro delimitador en instrucciones en el formato de instrucción espacial. Luego, las secuencias intercaladas de instrucciones regionales e incrustaciones de idiomas se introducen como entrada en el LLM y se entrenan en los datos de texto regionales transformados en formato de ajuste fino de instrucciones. La propuesta del modelo de lenguaje visual a nivel de región GPT4RoI proporciona un nuevo diálogo y una experiencia interactiva más allá de la capacidad de comprensión a nivel de imagen. (1) Controlabilidad: los usuarios pueden interactuar con el modelo de dos maneras, instrucciones regionales y de idioma, para ajustar de manera flexible el nivel de detalle del problema. (2) Capacidades: el modelo admite no solo comandos de regiones de una sola región, sino también comandos de regiones de varias regiones, lo que desbloquea más capacidades multimodales a nivel de región, como títulos detallados de regiones y razonamiento complejo de regiones. (3) Composicionalidad: cualquier detector de objetos listo para usar se puede usar como proveedor de instrucciones de región para extraer propiedades útiles de objetos de nuestro modelo, como color, forma, material, movimiento, asociación con otros objetos, etc.

10. Preentrenamiento Generativo en Multimodalidad página de detalles del artículo

Autores: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang

Enlace: https://www.aminer.cn/pub/64ae259c3fda6d7f0658f3b5/?f=cs

Revisión de ChatPaper: este documento presenta Emu, un modelo base multifuncional basado en Transformer que puede generar imágenes y texto sin problemas en un contexto multimodal. El modelo es un modelo omnívoro que puede aceptar entradas arbitrarias monomodales o multimodales (por ejemplo, alternancia de imágenes, texto y videos) y se entrena uno a uno a través de un procedimiento general de entrenamiento de autorregresión. En primer lugar, las señales visuales se codifican como incrustaciones y, junto con los tokens de texto, forman secuencias de entrada alternas. Luego, Emu clasifica con el objetivo unificado de predecir el siguiente token de texto o retroceder la próxima incorporación visual en toda la secuencia multimodal. Esta multimodalidad versátil permite que el modelo explore múltiples fuentes de datos previos al entrenamiento a gran escala, como secuencias alternas de cuadros y texto de videos, secuencias alternas de imágenes y texto en páginas web, y pares de imágenes y texto a gran escala y pareja de vídeo y texto. Emu puede servir como una interfaz multimodal versátil, que admite tareas de imagen a texto y de texto a imagen, y permite la generación de imágenes y texto en contexto. En una amplia gama de tareas de cero/pocos disparos, como subtítulos de imágenes, respuesta a preguntas visuales, respuesta a preguntas en video y tareas de generación de texto a imagen, Emu demuestra un rendimiento superior además de los grandes multimodales de última generación. modelos Además, Emu también demuestra excelentes capacidades de escalabilidad, como la implementación de asistentes multimodales mediante el ajuste fino de las instrucciones.


¿Cómo usar ChatPaper?

El método de uso de ChatPaper es muy simple. Abra la página de inicio de AMiner e ingrese a la página de ChatPaper desde la barra de navegación en la parte superior de la página o en la esquina inferior derecha.
inserte la descripción de la imagen aquí

En la página de ChatPaper, puede elegir tener un diálogo basado en un solo documento o un diálogo basado en toda la biblioteca (biblioteca personal), y puede elegir cargar un PDF local o buscar documentos directamente en AMiner.

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/131761290
Recomendado
Clasificación