1. Información básica
tema | Autor y unidad del artículo | fuente | años |
---|---|---|---|
LoRA: Adaptación de bajo rango de modelos de lenguaje grande | microsoft | Conferencia Internacional sobre Representaciones de Aprendizaje | 2021 |
524 citas
Enlace en papel: https://arxiv.org/pdf/2106.09685.pdf
Código de papel: https://github.com/microsoft/LoRA
2. Puntos clave
Tópicos de investigación | fondo del problema | Flujo del método principal | reflejos | conjunto de datos | en conclusión | tipo de tesis | palabras clave |
---|---|---|---|---|---|---|---|
ajuste fino de modelos grandes | No es factible ajustar todos los parámetros de un modelo más grande, como GPT-3 175B, y la implementación de un GPT-3 independiente para cada tarea es muy costosa. | Adaptación propuesta de bajo rango, LoRA. | Congelar los pesos del modelo previamente entrenados e inyectar una matriz de factorización de rango entrenable en cada capa de la arquitectura de Transformer reduce en gran medida la cantidad de parámetros entrenables para las tareas posteriores. | El efecto es igual o mejor que el ajuste fino de parámetros completos, y no hay demora de inferencia. | lora |
El objetivo principal no es ajustar todos los parámetros del modelo para cumplir con las tareas posteriores, porque el costo es demasiado alto, especialmente para modelos grandes como 175B GPT-3; al mismo tiempo, algunas personas han propuesto métodos relacionados para este método, pero hay problemas con estos métodos, al extender la profundidad del modelo o reducir la longitud de secuencia disponible del modelo en presencia de latencia de inferencia. Lo más importante es que la calidad no es lo suficientemente buena.
Inspirado en: El modelo sobreparametrizado aprendido realmente existe en una dimensión intrínseca más baja. Es decir, entrenar tareas posteriores no requiere tantos parámetros y el método de reducción de rango se usa para retener los parámetros más intrínsecos.
Midiendo la dimensión intrínseca de los paisajes objetivos, la dimensionalidad intrínseca explica la efectividad del ajuste fino del modelo de lenguaje. arXiv:2012.13255 [cs] , diciembre de 2020.
ventaja:
Solo se comparte un modelo grande y, para diferentes tareas, solo se entrenan diferentes A y B.
El entrenamiento es más efectivo y los parámetros de entrenamiento son menores;
En términos de inferencia, fusión lineal, sin demora de inferencia;
LoRA es ortogonal a muchos enfoques anteriores y se puede combinar con muchos de ellos, como la sintonización de prefijos.
3. Modelo (contenido central)
3.1 Expresión formal
3.2 Estructura del modelo
W 0 + ∆W = W 0 + *BA, donde *B:d*r, A:r*k, r << min( d, k ).
W0 se congela durante el entrenamiento.
En Transformer, hay 4 matrices para la autoatención y 2 matrices para el módulo MLP;
El experimento aquí solo se preocupa por la matriz de peso relacionada con la autoatención.
4. Experimentación y análisis
Experimento comparativo
Ajuste fino (FT) : Ajuste fino tradicional. variante FT, solo entrena las dos últimas capas ( FT Top2 );
Bias-only o BitFit : solo entrenar vectores de polarización;
**Ajuste de incrustación de prefijo (PreEmbed): **Insertar etiquetas especiales en las etiquetas de entrada;
Ajuste de capa de prefijo (PreLayer) : es una extensión del ajuste de incrustación de prefijo;
Ajuste del adaptador : inserte una capa de adaptador entre el módulo de autoatención (y el módulo MLP) y las conexiones restantes posteriores;
Adaptador_H : Houlsby et al. (2019) ;
Adaptador_L : Lin et al. (2020)
Adaptador_P : Pfeiffer et al. (2021),
**Adaptador_*** D : *AdapterDrop (R¨uckl′e et al., 2020)
Para todos los modelos, limite la escala de tamaño del parámetro relevante Θ :
Experimento de comparación de rendimiento y cantidad de parámetros de entrenamiento:
Para el efecto de GPT-3 con el aumento de muestras:
5. Código
https://github.com/microsoft/LoRA
6. Resumen
Desde el punto de vista del efecto, independientemente del tamaño del modelo de preentrenamiento, LoRA utiliza menos parámetros para lograr un mejor efecto del modelo de parámetros completos.
7. Recopilación de conocimientos (puntos de conocimiento, literatura para leer, extracción del texto original)
Adáptese a tareas posteriores con menos parámetros, principalmente en dos direcciones (adaptador, aviso suave):
agregando capas de adaptador, optimizando algunas formas de activaciones de la capa de entrada
La principal desventaja del ajuste fino es que el nuevo modelo contiene tantos parámetros como el modelo original.
La principal desventaja del ajuste fino es que el nuevo modelo contiene tantos parámetros como el modelo original.
8. Referencias
hecho por el principe feliz