LongLLaMA: ¡Una versión mejorada de LLaMA, una poderosa herramienta para lidiar con contextos ultra largos!

Fuente original: Queso AI come pescado

Integración eficiente de nuevos conocimientos: un desafío para modelos grandes

Cuando ha utilizado productos de modelos a gran escala, puede encontrarse con un problema común: al realizar varias rondas de diálogo, el modelo puede olvidar el contenido del diálogo anterior, lo que da como resultado respuestas incoherentes. En realidad, esto se debe a que los modelos grandes a veces se ven abrumados con una gran cantidad de contenido nuevo, lo que les da una sensación de distracción.

Este problema es también un gran desafío para los modelos actuales a gran escala, es decir, cómo integrar efectivamente una gran cantidad de nuevos conocimientos en el modelo. Una de las soluciones comunes actuales es el ajuste fino, pero este método no solo requiere una gran cantidad de recursos y procesos complicados, sino que tampoco siempre puede guiar claramente al modelo sobre cómo integrar nuevos conocimientos. Por ejemplo, afinar un texto como "Alicia en el país de las maravillas" no puede permitir que el modelo responda preguntas relacionadas con la historia en sí, sino solo para predecir la siguiente palabra o completar la oración. Esta situación es frustrante.

Un enfoque alternativo para integrar nuevos conocimientos: integración contextual

Además de la puesta a punto, otra alternativa eficaz es la incorporación de nuevos conocimientos al contexto sin formación de modelos. Sin embargo, este enfoque está limitado por la longitud del contexto del modelo. Para manejar grandes bases de datos de conocimiento, los modelos deben escalar la longitud del contexto a millones de tokens, lo que no es factible en la realidad. Incluso el poderoso modelo GPT-4 tiene una longitud de contexto de solo 32K.

El equipo de investigación de Google DeepMind propuso recientemente una arquitectura de transformador centrada en la atención llamada "Transformador enfocado" (FoT), cuyo objetivo es resolver el problema de distracción de los modelos grandes. Refinaron el modelo LLaMA usando FoT, lo que resultó en un modelo llamado LongLLaMA con la misma arquitectura que LLaMA. Al resolver el problema de distracción de los modelos grandes, LongLLaMA mejora significativamente la longitud del contexto del modelo e incluso puede extenderse a contextos de 256K de longitud en la tarea de recuperación de claves de acceso. Más importante aún, LongLLaMA realiza cambios muy pequeños en el Transformador estándar y puede cambiar sin problemas a modelos de lenguaje grandes para otras tareas.

Focused Transformer (FoT) es una arquitectura de transformador que se centra en la atención. Ayuda al modelo a manejar mejor una gran cantidad de nuevos conocimientos e información contextual al optimizar el mecanismo de atención del modelo. La introducción de esta tecnología innovadora permite que el modelo integre efectivamente nuevos conocimientos y mejore la coherencia del diálogo.

Sobre la base de FoT, el equipo de investigación afinó el modelo LLaMA y obtuvo el modelo LongLLaMA. En comparación con LLaMA, LongLLaMA logra una mejora significativa en el manejo de la longitud del contexto. En la tarea de recuperación de claves de paso, LongLLaMA puede manejar hasta 256K de información de contexto, lo que era difícil de lograr en el pasado.

El modelo LongLLaMA-3B tiene una tasa de precisión del 94,5% cuando la longitud del contexto es de 100k y una tasa de precisión del 73% cuando la longitud del contexto alcanza los 256k, mientras que el modelo LLaMA-3B estándar tiene una tasa de precisión cercana a 0 cuando el contexto la longitud es de 2k, que es básicamente inutilizable.

El método de implementación de FoT es muy simple. En realidad, es muy similar a una versión con aumento de memoria del transormer: Memoryrizing Transormer propuesto por Google en 2022. Discutiremos la diferencia entre FoT y it en detalle más adelante. FoT también usa una memoria más grande para almacenar pares clave-valor de información histórica, y luego usa la idea de aprendizaje contrastivo para usar el entrenamiento cruzado en la fase de entrenamiento para integrar una gran cantidad de información histórica en muestras para mejorar el espacial estructura de pares clave-valor, para que el modelo pueda enfocarse más en información histórica que es muy relevante para el problema actual.

El código actual y los pesos del modelo LongLLaMA se han publicado en github y Hugging Face:

Enlace en papel :
https://arxiv.org/pdf/2307.03170.pdf
Dirección del proyecto:
https://github.com/CStanKonrad/long_llama
Hugging Face:
https://huggingface.co/syzymon/long_llama_3b

Supongo que te gusta

Origin blog.csdn.net/wwlsm_zql/article/details/131646666
Recomendado
Clasificación