[Notas de lectura en papel 74] El poder de la escala para el ajuste rápido de parámetros eficientes

1. Información básica

tema Autor y unidad del artículo fuente años
El poder de la escala para el ajuste rápido de parámetros eficientes Brian Lester en google Jornada sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural 2021

857 citas

Enlace en papel: https://arxiv.org/abs/2104.08691

Código de papel: https://github.com/google-research/prompt-tuning

además:

google-research/prompt-tuning

kipgparker oficial/sintonización suave

mkshing/Prompt-Tuning

corolla-johnson/mkultra

arazd/Avisos progresivos

2. Puntos clave

Tópicos de investigación fondo del problema Flujo del método principal reflejos conjunto de datos en conclusión tipo de tesis palabras clave
Ajuste fino del modelo grande de lenguaje Para las sugerencias duras anteriores de GPT-3, esta sugerencia se puede aprender a través de datos supervisados, aprendiendo sugerencias suaves. La idea es similar a la del ajuste de prefijos. Se propone un ajuste rápido. Aquí nos enfocamos en tokens k y también hacemos muchas comparaciones experimentales. 1. Proponer un "ajuste rápido" en un sistema modelo de lenguaje grande y demostrar la competitividad del ajuste del modelo 2. A través de experimentos de ablación, la calidad y la robustez mejoran con el aumento de escala. 3. Ajuste fino del modelo de ajuste rápido en experimentos entre dominios. 4. Pronta "ensamblaje rápido" y probar su eficacia mediante experimentos. Super pegamento Se menciona el aprendizaje de pocos disparos de GPT-3. La capacidad de reutilizar un modelo congelado para múltiples tareas posteriores alivia esta carga. Este método puede verse como una simplificación del ajuste de prefijos. Se propuso un ajuste rápido y se realizó una comparación experimental. avisos suaves, sintonización rápida

indicaciones suaves"A diferencia de la pista dura anterior de GPT-3, esta pista se puede aprender a través de datos supervisados.
Optimización adicional de los parámetros de ajuste: ajuste rápido, congela todo el modelo previo al entrenamiento y solo permite que cada tarea posterior se agregue a la entrada texto Fichas adicionales k ajustables.

Los resultados experimentales del artículo: los resultados del modelo T5 bajo diferentes métodos de entrenamiento

pCCjq3V.png

3. Modelo (contenido central)

La diferencia entre el ajuste fino del modelo tradicional y el ajuste fino rápido

Para modelos tradicionales: para cada tarea posterior específica, se requiere copiar un modelo preentrenado completo, que también debe ser un lote separado durante la inferencia.

Para ajuste de solicitud: para cada tarea, solo se requiere guardar una solicitud para una tarea específica relativamente pequeña, y los datos de varias tareas se pueden mezclar y colocar en un lote.

pCCjVkn.png

El modelo define todas las tareas como generación de texto a texto. Por ejemplo, Pr θ ; θP ( Y | [ P ; X ]), Pr es el modelo T5, θ representa los parámetros de peso del modelo, que deben congelarse durante el entrenamiento, θP es el parámetro de la parte de solicitud, que actualizarse durante el entrenamiento, y Y representa una cadena de token, P significa solicitud y X solicita una cadena de token.

Formalice la definición de la siguiente manera: la cadena original es n tokens, promt es p tokens, y los dos se fusionan en el momento de la entrada, por lo que la matriz cuando se incrusta se convierte en (p+n)*e dimensión.

pCFZc8K.png

4. Experimentación y análisis

pCFrlqg.png

en conclusión:

Longitud del parámetro de solicitud:Cuando la longitud del parámetro de solicitud supera los 20, el efecto del modelo general no es muy obvio. Cuando el modelo preentrenado es grande, la diferencia de rendimiento de diferentes longitudes de parámetros de solicitud es pequeña.

**Esquema de inicialización de parámetros rápidos:**El método de inicialización no aleatoria es mejor que la inicialización aleatoria, y el efecto de etiqueta de clase es relativamente mejor,

El efecto del vocabulario muestreado y la etiqueta de clase es significativamente mejor que la inicialización aleatoria.

  • El esquema uniforme aleatorio se inicializa aleatoriamente a partir de una distribución uniforme;
  • Vocabulario muestreado : seleccione las 5000 palabras más comunes del corpus de T5.
  • Etiqueta de clase : Tómela del token correspondiente a la etiqueta en la tarea posterior. Cuando una etiqueta tiene múltiples tokens, tome su valor promedio. Si el número es insuficiente, tómelo de la muestra.

**Impacto de los objetivos de pre-entrenamiento:**El autor cree que el método de aprendizaje de usar estos centinelas antinaturales para guiar la respuesta no es bueno para la prontitud. Se canceló la tarea de corrupción de tramos en el entrenamiento previo.

El autor adoptó la Adaptación LM (tratando de convertir T5 en estilo GPT3), de modo que el modelo siempre genere un texto real. Al mismo tiempo, todas las tareas se transforman en tareas de generación de texto (similar al método "texto a texto" de T5).

Además, hay un experimento de cambio de dominio: usar el método rápido tiene un mejor efecto de generalización que ajustar directamente el modelo;

pCFLUsS.png

, Conjunto rápido: el resultado de integrar la predicción rápida en la tarea SueprGLUE es mejor que el resultado de predicción promedio.

pCFLfZ4.png

5. Resumen

Todavía quedan muchos experimentos y nuevos descubrimientos. Muy similar a la afinación de prefijos. Sólo el lenguaje utilizado es diferente.

6. Recopilación de conocimientos (puntos de conocimiento, literatura para leer, extracción del texto original)

Un algoritmo de búsqueda en espacios de palabras discretos guiado por datos de entrenamiento para aplicaciones posteriores: AutoPrompt: obtener conocimiento de modelos de lenguaje con mensajes generados automáticamente

Experimento de cambio de dominio : el llamado cambio de dominio es en realidad un experimento de dominio cruzado, es decir, la distribución del conjunto de entrenamiento y el conjunto de prueba son diferentes para probar el rendimiento de generalización del modelo.

**Span Corruption: **Span Corruption es una de las tareas previas al entrenamiento T5, que enmascara oraciones completas según intervalos aleatorios. Tales como: oración original: "Gracias por invitarme a tu fiesta la semana pasada"

Después de Span Corruption, obtenga la entrada: "Gracias [X] yo a su fiesta [Y] semana"; objetivo: "[X] por invitar a [Y] la última [Z]". Entre ellos, una serie de códigos auxiliares como [X] se denominan centinelas.

El token centinela es en realidad un centinela.

7. Referencias

https://zhuanlan.zhihu.com/p/551174711

https://zhuanlan.zhihu.com/p/415168620

hecho por el principe feliz

Supongo que te gusta

Origin blog.csdn.net/ld326/article/details/131096975
Recomendado
Clasificación