Seguimiento en tiempo real de las tendencias de la investigación científica 丨 Nuevos artículos seleccionados el 22 de septiembre del MIT, la Universidad de Pekín, Stanford y otras instituciones

Como investigador científico, debe buscar y explorar una gran cantidad de literatura académica todos los días para obtener los últimos avances científicos y tecnológicos y resultados de investigación.

Sin embargo, los métodos tradicionales de recuperación y lectura ya no pueden satisfacer las necesidades de los investigadores científicos.

AMiner AI es una herramienta de conocimiento literario que integra recuperación, lectura y preguntas y respuestas sobre conocimientos. Le ayudará a mejorar rápidamente la eficiencia de la recuperación y lectura de artículos, a obtener las últimas tendencias de investigación en el campo y a hacer que el trabajo de investigación científica sea más cómodo.
Insertar descripción de la imagen aquí
Si desea tener una conversación en profundidad sobre un determinado documento, puede copiar directamente el enlace del documento al navegador o ir directamente a la página de AMiner AI: https://www.aminer.cn/chat/g/explain

Lista de nuevos artículos seleccionados el 22 de septiembre de 2023:

1.LongLoRA: ajuste eficiente de modelos de lenguaje grande de contexto largo

El artículo presenta un método llamado LongLoRA, que puede ajustar de manera efectiva modelos de lenguaje grandes y expandir el tamaño del contexto del modelo con un costo computacional limitado. Normalmente, entrenar modelos de lenguaje con tamaños de contexto largos requiere tiempo y recursos computacionales significativos. Por ejemplo, una longitud de contexto de 8192 requiere 16 veces el costo computacional en comparación con una longitud de contexto de 2048. Este artículo propone dos métodos para acelerar la expansión contextual de los modelos lingüísticos. Por un lado, es necesario utilizar la atención global durante la inferencia, pero el ajuste fino utilizando una atención local escasa puede lograr un cálculo eficiente. Al introducir el método de cambio de atención breve propuesto, el contexto se puede ampliar de manera efectiva y, en comparación con el uso de la atención tradicional para el ajuste, se pueden ahorrar recursos informáticos muy considerables y al mismo tiempo tener un rendimiento similar. Vale la pena mencionar especialmente que durante el entrenamiento del modelo, solo necesita agregar dos líneas de código para implementar este método y puede elegir si usarlo durante el proceso de inferencia. Por otro lado, en el proceso de ajuste fino de la expansión del contexto, el autor vuelve a examinar el mecanismo de ajuste fino efectivo para los parámetros. Vale la pena señalar que el autor descubrió que el mecanismo LoRA ampliado en contexto funcionó bien bajo la premisa de incrustación y normalización entrenable. LongLoRA demuestra sólidos resultados empíricos en el modelo LLaMA2 de 7B/13B a ​​70B. LongLoRA aún puede mantener la arquitectura original del modelo y es compatible con la mayoría de las tecnologías existentes (como FlashAttention-2). Además, para que la aplicación de LongLoRA sea práctica, los autores recopilaron un conjunto de datos denominado LongQA para un ajuste fino supervisado, que contiene más de 3.000 pares de preguntas y respuestas de contexto largo.

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445d9/?f=cs

2.Un cambio de paradigma en la traducción automática: aumentar el rendimiento de la traducción de modelos de lenguaje grandes

Este artículo señala que en las tareas de traducción automática, los modelos generativos de lenguaje grande (LLM) con tamaños de modelo moderados (por ejemplo, parámetros 7B o 13B) todavía están por detrás de los modelos tradicionales de traducción codificador-decodificador supervisado en términos de rendimiento, y los intentos de investigación anteriores mejoraron las capacidades de traducción. de estos modestos LLM, pero con ganancias limitadas. Para resolver este problema, los autores proponen un nuevo método de ajuste fino de LLM diseñado específicamente para tareas de traducción, eliminando la necesidad de grandes cantidades de datos paralelos en los que suelen confiar los modelos de traducción tradicionales. El método consta de dos etapas de ajuste fino: un ajuste fino inicial de datos monolingües y luego un ajuste fino posterior de un pequeño conjunto de datos paralelos de alta calidad. Los autores presentan un LLM desarrollado a través de esta estrategia, denominado Traductor basado en modelos de lenguaje avanzado (ALMA). Basado en su modelo subyacente LLaMA-2, los resultados experimentales muestran que el modelo logra una mejora promedio de más de 12 puntos en relación con el rendimiento de disparo cero en los conjuntos de datos de prueba de WMT'21 (2 direcciones) y WMT'22 (8 direcciones). ) BLEU y 12 COMETA. El rendimiento es significativamente mejor que todos los trabajos anteriores, incluso mejor que el modelo NLLB-54B y GPT-3.5-text-davinci-003 con parámetros 7B o 13B. Este enfoque sienta las bases para un nuevo paradigma de formación en traducción automática.

https://www.aminer.cn/pub/650cf9223fda6d7f06d42a80/?f=cs

3.LMSYS-Chat-1M: un conjunto de datos de conversaciones de LLM del mundo real a gran escala

Este artículo presenta un conjunto de datos a gran escala llamado LMSYS-Chat-1M, que contiene 1 millón de conversaciones reales con 25 modelos de lenguaje grande (LLM) de última generación. Este conjunto de datos se recopiló de forma natural a partir de 210 000 direcciones IP únicas de nuestra demostración de Vicuña y del sitio web Chatbot Arena. El artículo proporciona una descripción general del contenido del conjunto de datos, incluido su proceso de curación, estadísticas básicas y distribución de temas, enfatizando su diversidad, originalidad y escala. La versatilidad del conjunto de datos se demuestra a través de cuatro casos de uso: desarrollar un modelo de moderación de contenido con un rendimiento similar al GPT-4, crear un punto de referencia de seguridad, entrenar un modelo de seguimiento de instrucciones con un rendimiento similar al de Vicuña y crear problemas de referencia desafiantes. Los autores creen que este conjunto de datos se convertirá en un recurso valioso para comprender y mejorar las capacidades de LLM.

https://www.aminer.cn/pub/650cf92d3fda6d7f06d4447f/?f=cs

4.RMT: Las redes retentivas se encuentran con los transformadores de visión

Este artículo plantea principalmente una pregunta: si transferir las ideas de RetNet al campo visual puede mostrar un rendimiento excelente en tareas visuales. El autor propuso RMT combinando RetNet y Transformer y demostró su excelente rendimiento en diversas tareas de visión por computadora. Además, los autores también señalaron que RMT supera significativamente a otras redes troncales visuales en tareas posteriores como la detección de objetivos, la segmentación de instancias y la segmentación semántica en comparación con las redes troncales visuales existentes.

https://www.aminer.cn/pub/650cf9223fda6d7f06d429e6/?f=cs

5.LLM-Grounder: Conexión visual 3D de vocabulario abierto con un modelo de lenguaje grande como agente

Este artículo presenta el método LLM-Grounder para resolver el problema del posicionamiento visual 3D. Específicamente, los autores señalaron que los métodos existentes a menudo se basan en grandes cantidades de datos anotados o tienen ciertas limitaciones en el procesamiento de consultas de lenguajes complejos. El método LLM-Grounder descompone consultas complejas de lenguaje natural en partes semánticas mediante la utilización de modelos de lenguaje a gran escala (LLM) y utiliza herramientas de localización visual como OpenScene o LERF para identificar objetos en escenas 3D. Luego, LLM evalúa las relaciones espaciales y de sentido común entre los objetos propuestos para tomar la decisión final de posicionamiento. Este método no requiere ningún dato de entrenamiento etiquetado y se puede generalizar a nuevas escenas 3D y consultas de texto arbitrarias. Los autores evalúan el método LLM-Grounder en el punto de referencia ScanRefer y demuestran una precisión de localización de disparo cero de última generación. Los resultados de la investigación muestran que LLM mejora significativamente las capacidades de localización, especialmente para consultas de idiomas complejas, lo que convierte a LLM-Grounder en un método eficaz para tareas de lenguaje visual 3D en robots.

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445de/?f=cs

6.MetaMath: inicie sus propias preguntas matemáticas para modelos de lenguaje grandes

El artículo ilustra que los modelos de lenguaje a gran escala de código abierto existentes todavía tienen lagunas en la resolución de problemas matemáticos debido a la complejidad del proceso de razonamiento matemático. Para solucionar este problema se propone un modelo de lenguaje optimizado llamado MetaMath, específicamente para el razonamiento matemático. Primero iniciamos el problema matemático reescribiéndolo desde múltiples perspectivas y generamos un nuevo conjunto de datos llamado MetaMathQA. Luego, el modelo LLaMA-2 se ajusta utilizando MetaMathQA. Los resultados experimentales muestran que MetaMath supera a un conjunto de modelos LLM de código abierto en dos puntos de referencia comúnmente utilizados para el razonamiento matemático. Entre ellos, MetaMath-7B logró tasas de precisión del 66,4 % y 19,4 % en GSM8K y MATH respectivamente, que son un 11,5 % y 8,7 % más altas que los modelos de última generación de la misma escala. En particular, la precisión de MetaMath-70B en GSM8K alcanza el 82,3%, ligeramente mejor que la de GPT-3.5-Turbo. Los autores también publicaron el conjunto de datos MetaMathQA, los modelos MetaMath de diferentes tamaños y el código de entrenamiento para uso público.

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445be/?f=cs

7.BTLM-3B-8K: Rendimiento de los parámetros 7B en un modelo de parámetros 3B

Este artículo explica los siguientes problemas: 1. Se introduce un nuevo modelo de lenguaje BTLM-3B-8K, que es un modelo de lenguaje de código abierto con 3 mil millones de parámetros. 2. BTLM-3B-8K se entrena en el conjunto de datos SlimPajama utilizando una combinación de 2048 y 8192 longitudes de contexto, que contiene 627 mil millones de tokens. 3. BTLM-3B-8K mejora el rendimiento en tareas posteriores entre un 2% y un 5,5% en comparación con todos los modelos de 3 mil millones de parámetros existentes. Incluso compite con unos 7 mil millones de modelos de parámetros. 4. BTLM-3B-8K funciona bien en tareas de contexto largo, superando el rendimiento de MPT-7B-8K y XGen-7B-8K en tareas con hasta 8192 longitudes de contexto. 5. El autor utilizó el conjunto de datos SlimPajama limpio y deduplicado al entrenar el modelo, ajustó los hiperparámetros y la programación, y utilizó la incorporación de posición ALiBi y las funciones de activación no lineal SwiGLU. 6. En Hugging Face, el modelo más popular tiene 7 mil millones de parámetros, lo que muestra que los usuarios prefieren la relación de calidad y escala de 7 mil millones de modelos. 7. Comprimir un modelo de 7 mil millones de parámetros en un modelo de 3 mil millones de parámetros sin casi ninguna pérdida de rendimiento es un hito importante. 8. BTLM-3B-8K requiere solo 3 GB de memoria y precisión de 4 dígitos, y utiliza 2,5 veces menos recursos informáticos que el modelo de 7 mil millones al calcular la inferencia, lo que puede ayudar a utilizar potentes modelos de lenguaje en dispositivos móviles y de borde. 9. BTLM-3B-8K está disponible en Hugging Face bajo una licencia Apache 2.0.

https://www.aminer.cn/pub/650cf9223fda6d7f06d42a14/?f=cs

8.Boolformer: Regresión simbólica de funciones lógicas con transformadores

Este artículo presenta Boolformer, una arquitectura Transformer que es la primera arquitectura Transformer entrenada para realizar regresión simbólica de funciones booleanas. En primer lugar, el artículo muestra que cuando se le proporciona una tabla de verdad limpia, Boolformer es capaz de predecir fórmulas concisas para funciones complejas, incluso si estas funciones no han aparecido en el entrenamiento. Luego, el artículo demuestra la capacidad de Boolformer para encontrar expresiones aproximadas cuando se le proporcionan datos de observación incompletos y ruidosos. El artículo evalúa Boolformer en una amplia gama de conjuntos de datos de clasificación binaria del mundo real, lo que demuestra su potencial como una alternativa interpretable a los métodos tradicionales de aprendizaje automático. Finalmente, el artículo aplica Boolformer a la tarea común de modelar la dinámica de la red reguladora de genes. Utilizando puntos de referencia de última generación, el artículo muestra que Boolformer compite con algoritmos genéticos de última generación y es mucho más rápido. El código y los modelos del artículo están disponibles públicamente.

https://www.aminer.cn/pub/650cf92d3fda6d7f06d44568/?f=cs


FIN

Hemos agregado el tema "Nuevos artículos seleccionados diariamente" en la página de inicio del sitio web de AMiner. Puede hacer clic en "Suscribirse" y "Agregar a la base de conocimientos" para obtener toda la información del artículo.

Insertar descripción de la imagen aquí
Ver todos los artículos nuevos destacados: https://www.aminer.cn

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/133268600
Recomendado
Clasificación