[Notas de lectura en papel 77] LoRA: Adaptación de bajo rango de modelos de lenguaje grande

1. Información básica

tema Autor y unidad del artículo fuente años
LoRA: Adaptación de bajo rango de modelos de lenguaje grande microsoft Conferencia Internacional sobre Representaciones de Aprendizaje 2021

524 citas

Enlace en papel: https://arxiv.org/pdf/2106.09685.pdf

Código de papel: https://github.com/microsoft/LoRA

2. Puntos clave

Tópicos de investigación fondo del problema Flujo del método principal reflejos conjunto de datos en conclusión tipo de tesis palabras clave
ajuste fino de modelos grandes No es factible ajustar todos los parámetros de un modelo más grande, como GPT-3 175B, y la implementación de un GPT-3 independiente para cada tarea es muy costosa. Adaptación propuesta de bajo rango, LoRA. Congelar los pesos del modelo previamente entrenados e inyectar una matriz de factorización de rango entrenable en cada capa de la arquitectura de Transformer reduce en gran medida la cantidad de parámetros entrenables para las tareas posteriores. El efecto es igual o mejor que el ajuste fino de parámetros completos, y no hay demora de inferencia. lora

El objetivo principal no es ajustar todos los parámetros del modelo para cumplir con las tareas posteriores, porque el costo es demasiado alto, especialmente para modelos grandes como 175B GPT-3; al mismo tiempo, algunas personas han propuesto métodos relacionados para este método, pero hay problemas con estos métodos, al extender la profundidad del modelo o reducir la longitud de secuencia disponible del modelo en presencia de latencia de inferencia. Lo más importante es que la calidad no es lo suficientemente buena.

Inspirado en: El modelo sobreparametrizado aprendido realmente existe en una dimensión intrínseca más baja. Es decir, entrenar tareas posteriores no requiere tantos parámetros y el método de reducción de rango se usa para retener los parámetros más intrínsecos.

Midiendo la dimensión intrínseca de los paisajes objetivos, la dimensionalidad intrínseca explica la efectividad del ajuste fino del modelo de lenguaje. arXiv:2012.13255 [cs] , diciembre de 2020.

ventaja:

Solo se comparte un modelo grande y, para diferentes tareas, solo se entrenan diferentes A y B.

El entrenamiento es más efectivo y los parámetros de entrenamiento son menores;

En términos de inferencia, fusión lineal, sin demora de inferencia;

LoRA es ortogonal a muchos enfoques anteriores y se puede combinar con muchos de ellos, como la sintonización de prefijos.

3. Modelo (contenido central)

3.1 Expresión formal

pCmZfhQ.png

3.2 Estructura del modelo

PCMASwF.png

W 0 + ∆W = W 0 + *BA, donde *B:d*r, A:r*k, r << min( d, k ).

W0 se congela durante el entrenamiento.

pCmmbYF.png

En Transformer, hay 4 matrices para la autoatención y 2 matrices para el módulo MLP;

El experimento aquí solo se preocupa por la matriz de peso relacionada con la autoatención.

4. Experimentación y análisis

Experimento comparativo

Ajuste fino (FT) : Ajuste fino tradicional. variante FT, solo entrena las dos últimas capas ( FT Top2 );

Bias-only o BitFit : solo entrenar vectores de polarización;

**Ajuste de incrustación de prefijo (PreEmbed): **Insertar etiquetas especiales en las etiquetas de entrada;

Ajuste de capa de prefijo (PreLayer) : es una extensión del ajuste de incrustación de prefijo;

Ajuste del adaptador : inserte una capa de adaptador entre el módulo de autoatención (y el módulo MLP) y las conexiones restantes posteriores;

Adaptador_H : Houlsby et al. (2019) ;

Adaptador_L : Lin et al. (2020)

Adaptador_P : Pfeiffer et al. (2021),

**Adaptador_*** D : *AdapterDrop (R¨uckl′e et al., 2020)

Para todos los modelos, limite la escala de tamaño del parámetro relevante Θ :

pCmNA5d.png

resultado:
pCmUnY9.png

pCmUgYj.png

pCmByJe.png

Experimento de comparación de rendimiento y cantidad de parámetros de entrenamiento:

PCmanHS.png

Para el efecto de GPT-3 con el aumento de muestras:

pCma6u6.png

5. Código

https://github.com/microsoft/LoRA

6. Resumen

Desde el punto de vista del efecto, independientemente del tamaño del modelo de preentrenamiento, LoRA utiliza menos parámetros para lograr un mejor efecto del modelo de parámetros completos.

7. Recopilación de conocimientos (puntos de conocimiento, literatura para leer, extracción del texto original)

Adáptese a tareas posteriores con menos parámetros, principalmente en dos direcciones (adaptador, aviso suave):

agregando capas de adaptador, optimizando algunas formas de activaciones de la capa de entrada

La principal desventaja del ajuste fino es que el nuevo modelo contiene tantos parámetros como el modelo original.

La principal desventaja del ajuste fino es que el nuevo modelo contiene tantos parámetros como el modelo original.

8. Referencias

hecho por el principe feliz

Supongo que te gusta

Origin blog.csdn.net/ld326/article/details/131193936
Recomendado
Clasificación