1. Información básica
tema | Autor y unidad del artículo | fuente | años |
---|---|---|---|
GPT también entiende | Universidad de Tsinghua |
Citas, Referencias
Enlace en papel: https://arxiv.org/pdf/2103.10385.pdf
código de tesis:
2. Puntos clave
Tópicos de investigación | fondo del problema | Flujo del método principal | reflejos | conjunto de datos | en conclusión | tipo de tesis | palabras clave |
---|---|---|---|---|---|---|---|
ajuste fino de modelos grandes | Gpt usando el ajuste fino tradicional no logró buenos resultados en la comprensión del lenguaje natural (NLU), por lo que se propuso el ajuste P. | LAMA,SuperGlue | P-tuning ha logrado buenos resultados en bert y gpt en algunas muestras. |
3. Modelo (contenido central)
3.1 Ejemplo de modelo
La idea del modelo aquí es que, por ejemplo, hay una plantilla T: La mayúscula de [X] es [Y], donde X se define como el contexto, Y se define como el objetivo y otros caracteres representan inmediato.
Para el tipo discreto, cada palabra de solicitud se puede encontrar en el diccionario V y luego se puede codificar mediante el modelo previo.
*** T = {*****[P_0: i ] , x , *****[P_*****i+1: m ], y }, [P_i ] *****∈ V, ***
En p-tuning, p_i se considera un pseudo-token, y la plantilla para la aplicación debería ser así:
El h_i aquí es entrenable, y se puede obtener un aviso preciso a través del entrenamiento, y este aviso superará el aviso actual.
La función de pérdida final es:
Las otras ideas son las mismas que las anteriores. Reemplace directamente discreto con continuo.
Hay dos desafíos al optimizar:
discreción
Si h se inicializa con una distribución aleatoria, el optimizador puede caer fácilmente en mínimos locales.
Asociación
La h incrustada debe estar interrelacionada, no ser independiente, y las funciones relacionadas de h deben agregarse en el diseño.
La solución a este problema es establecer la variable oculta h como una secuencia y utilizar un codificador rápido para codificarla, este codificador se completa con una pequeña y ligera red neuronal. En la práctica real, lstm se usa para completar.
4. Experimentación y análisis
4.1 Experimento
Tarea 1: sondeo de conocimiento LAMA (Petroni et al., 2019)
Convierta el triplete (Dante, nacido en Florencia) en una oración en blanco: "Dante nació en [MASK]", como muestra original.
1) Aviso manual (MP): use el aviso manual original de LAMA;
2) Ajuste fino (FT): predecir el objeto a través del sujeto y el modelo de ajuste fino;
3) Indicación manual con ajuste fino (MP+FT): use datos de indicación manual para ajustar el modelo de lenguaje;
4) P-tuning: use sugerencias de conexión (parámetros fijos del modelo de lenguaje).
Además, se encontró que el ajuste P en el conjunto de datos LAMA-29k es mejor que el ajuste fino.
Tarea 2: SuperGlue (Wang et al., 2019b)
BERT-base-case, GPT2-base, BERT-large-case, GPT2-medium, a partir de estos resultados experimentales, básicamente superan el efecto del ajuste fino.
La semántica, el formato y la sintaxis de las sugerencias en pocas tomas no tienen una correlación obvia y, en segundo lugar, los pequeños cambios en las sugerencias manuales pueden generar grandes diferencias de rendimiento.
5. Resumen
La idea es similar a los dos artículos anteriores, y en este artículo se han realizado muchos experimentos, y la mayoría de los efectos se pueden comparar con un ajuste fino. bien.
7. Recopilación de conocimientos (puntos de conocimiento, literatura para leer, extracción del texto original)
8. Referencias
hecho por el principe feliz