[Notas de lectura en papel 76] GPT también entiende (sintonización P)

1. Información básica

tema Autor y unidad del artículo fuente años
GPT también entiende Universidad de Tsinghua

Citas, Referencias

Enlace en papel: https://arxiv.org/pdf/2103.10385.pdf

código de tesis:

2. Puntos clave

Tópicos de investigación fondo del problema Flujo del método principal reflejos conjunto de datos en conclusión tipo de tesis palabras clave
ajuste fino de modelos grandes Gpt usando el ajuste fino tradicional no logró buenos resultados en la comprensión del lenguaje natural (NLU), por lo que se propuso el ajuste P. LAMA,SuperGlue P-tuning ha logrado buenos resultados en bert y gpt en algunas muestras.

3. Modelo (contenido central)

3.1 Ejemplo de modelo

pCeDFvn.png

La idea del modelo aquí es que, por ejemplo, hay una plantilla T: La mayúscula de [X] es [Y], donde X se define como el contexto, Y se define como el objetivo y otros caracteres representan inmediato.

Para el tipo discreto, cada palabra de solicitud se puede encontrar en el diccionario V y luego se puede codificar mediante el modelo previo.

*** T = {*****[P_0: i ] , x , *****[P_*****i+1: m ], y }, [P_i ] *****∈ V, ***

pCesHCF.png

En p-tuning, p_i se considera un pseudo-token, y la plantilla para la aplicación debería ser así:

pCesoNT.png

El h_i aquí es entrenable, y se puede obtener un aviso preciso a través del entrenamiento, y este aviso superará el aviso actual.

La función de pérdida final es:

pCeyAKA.png

Las otras ideas son las mismas que las anteriores. Reemplace directamente discreto con continuo.

Hay dos desafíos al optimizar:

discreción

Si h se inicializa con una distribución aleatoria, el optimizador puede caer fácilmente en mínimos locales.

Asociación

La h incrustada debe estar interrelacionada, no ser independiente, y las funciones relacionadas de h deben agregarse en el diseño.

La solución a este problema es establecer la variable oculta h como una secuencia y utilizar un codificador rápido para codificarla, este codificador se completa con una pequeña y ligera red neuronal. En la práctica real, lstm se usa para completar.

pCey6Vx.png

4. Experimentación y análisis

4.1 Experimento

Tarea 1: sondeo de conocimiento LAMA (Petroni et al., 2019)

Convierta el triplete (Dante, nacido en Florencia) en una oración en blanco: "Dante nació en [MASK]", como muestra original.

pCe6Kdx.png

1) Aviso manual (MP): use el aviso manual original de LAMA;

2) Ajuste fino (FT): predecir el objeto a través del sujeto y el modelo de ajuste fino;

3) Indicación manual con ajuste fino (MP+FT): use datos de indicación manual para ajustar el modelo de lenguaje;

4) P-tuning: use sugerencias de conexión (parámetros fijos del modelo de lenguaje).

Además, se encontró que el ajuste P en el conjunto de datos LAMA-29k es mejor que el ajuste fino.

Tarea 2: SuperGlue (Wang et al., 2019b)

BERT-base-case, GPT2-base, BERT-large-case, GPT2-medium, a partir de estos resultados experimentales, básicamente superan el efecto del ajuste fino.

pCe6qmR.png

pCe6L01.png

La semántica, el formato y la sintaxis de las sugerencias en pocas tomas no tienen una correlación obvia y, en segundo lugar, los pequeños cambios en las sugerencias manuales pueden generar grandes diferencias de rendimiento.

pCecN3F.png

5. Resumen

La idea es similar a los dos artículos anteriores, y en este artículo se han realizado muchos experimentos, y la mayoría de los efectos se pueden comparar con un ajuste fino. bien.

7. Recopilación de conocimientos (puntos de conocimiento, literatura para leer, extracción del texto original)

8. Referencias

hecho por el principe feliz

Supongo que te gusta

Origin blog.csdn.net/ld326/article/details/131178956
Recomendado
Clasificación