P-Tuning v2: optimización rápida equivalente a ajuste fino del rendimiento

原文:P-Tuning v2: el ajuste rápido puede ser comparable al ajuste fino universal en todas las escalas y tareas

Autor: Xiao Liu1,2, Kaixuan Ji1

Código:  https://github.com/THUDM/P-tuning-v2

1. Introducción
2. Preparativos
- 2.1 Tareas NLU
- 2.2 Optimización de sugerencias
3. P-Tuning v2
- 3.1 Falta de universalidad
- 3.2 Optimización de sugerencias profundas
- 3.3 Optimización e implementación
4. Experimentos
- 4.1 Configuración
- 4.2 P-tuning v2: diferentes escalas
- 4.3 P-tuning v2: entre tareas
- 4.4 Investigación sobre ablación
5. Trabajo relacionado
6. Resumen

1. Introducción

El ajuste de señales, utilizando solo un modelo de lenguaje congelado para ajustar señales consecutivas, reduce en gran medida el almacenamiento y el uso de memoria de cada tarea durante el entrenamiento. Sin embargo, en el contexto de NLU, trabajos anteriores han demostrado que el ajuste fino de señales no funciona bien para modelos preentrenados de tamaño normal. También encontramos que los métodos de ajuste de sugerencias existentes no pueden manejar tareas difíciles de etiquetado de secuencias, lo que indica una falta de generalización. Presentamos un nuevo hallazgo empírico de que el ajuste fino de sugerencias correctamente optimizado puede ser generalmente efectivo en una amplia gama de tamaños de modelos y tareas de NLU. Iguala el rendimiento ajustado con solo un 0,1% -3% de parámetros de ajuste. Nuestro método P-Tuning v2 no es un método nuevo, sino una versión del ajuste fino de prefijos (Li y Liang, 2021), optimizada y ajustada para NLU. Dada la generalidad y simplicidad de P-Tuning v2, creemos que puede servir como una alternativa al ajuste fino y una base sólida para futuras investigaciones.

Los modelos de lenguaje previamente entrenados (Han et al., 2021a) mejoran el rendimiento en una variedad de tareas de comprensión del lenguaje natural (NLU), como la respuesta a preguntas (Rajpurkar et al., 2016) y la vinculación de texto (Dagan et al., 2005). Un método ampliamente utilizado, el ajuste fino, actualiza todo el conjunto de parámetros del modelo para la tarea de destino. Aunque el ajuste fino logra un buen rendimiento, requiere mucha memoria durante el entrenamiento porque los gradientes y el estado del optimizador de todos los parámetros deben almacenarse. Además, el ajuste requiere mantener una copia de los parámetros del modelo para cada tarea durante la inferencia, lo cual es inconveniente porque los modelos previamente entrenados suelen ser grandes.

Figura 1: puntuaciones promedio de los desarrolladores de SuperGLUE en RTE, BoolQ y CB. Con un 0,1 % de parámetros específicos de la tarea, P-tuning v2 puede ser comparable al ajuste fino en modelos previamente entrenados de diferentes escalas, mientras que Lester et al. (2021) y P-tuning solo pueden hacer en escala 10B hasta este punto.

El método de sugerencias, por otro lado, congela todos los parámetros del modelo previamente entrenado y utiliza sugerencias de lenguaje natural para consultar el modelo de lenguaje (Brown et al., 2020). Por ejemplo, para el análisis de sentimientos, podemos concatenar muestras con el mensaje "Esta película es [MASCARA]" y pedirle al modelo de lenguaje previamente entrenado que prediga la anotación enmascarada. Luego podemos usar las probabilidades predichas de que "bueno" y "malo" estén enmascarados para predecir la etiqueta de la muestra. El método de solicitud no requiere ningún entrenamiento y solo necesita almacenar una copia de los parámetros del modelo. Sin embargo, en comparación con el ajuste fino, las indicaciones conducen a un rendimiento subóptimo en muchos casos (Liu et al., 2021b; Lester et al., 2021).

La optimización de sugerencias es la idea de optimizar solo sugerencias consecutivas. Específicamente, Liu y otros (2021b) y Lester y otros (2021) proponen agregar incrustaciones continuas entrenables a la secuencia original de incrustaciones de palabras de entrada. Estas incrustaciones secuenciales (también llamadas señales secuenciales) son similares a señales discretas diseñadas manualmente dentro de señales. Durante el entrenamiento, sólo se actualizan las sugerencias consecutivas. Aunque la optimización de sugerencias mejora con respecto a los métodos de sugerencias en muchas tareas (Liu et al., 2021b; Lester et al., 2021), sigue siendo inferior a los métodos de ajuste fino cuando el tamaño del modelo es pequeño, especialmente menos de 10 mil millones de parámetros (Lester et al.Personas, 2021). Además, como muestran nuestros experimentos, la optimización de sugerencias funciona peor que la optimización fina en varias tareas de secuencia difíciles, como la respuesta extractiva a preguntas y el etiquetado de secuencias (consulte la Sección 4.3).

Nuestra principal contribución en este artículo es un nuevo hallazgo empírico de que la optimización de sugerencias adecuadamente optimizada puede ser generalmente comparable al ajuste fino en diferentes tamaños de modelos y tareas de NLU. Contrariamente a las observaciones de trabajos anteriores, nuestros hallazgos revelan la generalidad y el gran potencial de la optimización de sugerencias en NLU.

Técnicamente, nuestro método P-tuning v2 puede verse como una versión optimizada de la optimización de prefijos (Li y Liang, 2021), un método diseñado para generación y adecuado para NLU. La mejora más significativa resulta del uso de optimización profunda de sugerencias, que aplica sugerencias continuas a cada capa del modelo previamente entrenado (Li y Liang, 2021; Qin y Eisner, 2021). La optimización profunda de sugerencias aumenta la capacidad de realizar sugerencias continuamente y cierra la brecha para realizar ajustes en varias configuraciones, especialmente para modelos pequeños y tareas difíciles. Además, proponemos algunos detalles de optimización e implementación para mejorar aún más los resultados.

Los resultados experimentales muestran que el rendimiento de P-tuning v2 coincide con el ajuste fino en diferentes tamaños de modelos (de 300M a 100B parámetros) y varias tareas NLU difíciles (como responder preguntas y etiquetar secuencias). En comparación con el ajuste fino, P-tuning v2 tiene parámetros entrenables del 0,1% al 3% por tarea, lo que reduce en gran medida el consumo de memoria del tiempo de entrenamiento y el costo de almacenamiento de cada tarea.

2. Trabajo de preparación

2.1 Tareas de la NLU

En este trabajo, dividimos los desafíos de NLU en dos familias: tareas simples y tareas de secuencia difíciles.

- Las tareas NLU simples implican la clasificación de una sola etiqueta. La mayoría de los conjuntos de datos de GLUE (Wang et al., 2018) y SuperGLUE (Wang et al., 2019), incluida la clasificación de texto (como SST-2), la inferencia del lenguaje natural (NLI, como MNLI-m, RTE), múltiples preguntas de elección Las respuestas (como BoolQ), etc., entran en esta categoría.

- Las tareas NLU de secuencia difícil implican clasificar una secuencia de etiquetas. La mayoría de ellos son problemas relacionados con la extracción de información, como la extracción de información abierta, el reconocimiento de entidades nombradas, la respuesta extractiva a preguntas y el etiquetado de roles semánticos.

2.2 Optimización rápida

El ajuste rápido (Lester et al., 2021), o Ptuning (Liu et al., 2021b), introduce avisos continuos entrenables como una alternativa a los avisos en lenguaje natural de NLU cuando los parámetros del modelo principal están congelados. Por ejemplo, V se refiere a la lista de palabras del modelo de lenguaje M y e sirve como función de incorporación del modelo M.

Clasificar una reseña de película con la probabilidad condicional de "como clasificación. En este caso, los tokens de solicitud {"it", "is", "[MASK]"} pertenecen todos a la lista de palabras V del modelo, y la secuencia de incrustación de entrada será

Sin embargo, dado que el modelo M es de naturaleza continua, desde una perspectiva de optimización, nunca es posible lograr la optimización con indicaciones naturales discretas. Por el contrario, P-tuning propone reemplazar el token de sugerencia con una incrustación continua entrenable [h0,...,hi] y convierte la secuencia de entrada en

Por lo tanto, se pueden realizar diferentes optimizaciones (consulte la Figura 2 (a)). Bajo la estricta restricción de que los parámetros del modelo de entrenamiento de intervención ósea estén congelados, se ha demostrado que la optimización de señales tiene un rendimiento comparable al ajuste fino de 10 mil millones de modelos de parámetros.

Figura 2

Figura 2: De Lester y otros (2021) y P-tuning a P-tuning v2. Los tokens naranjas (incluidos h0, hi) se refieren a incrustaciones de sugerencias que agregamos; los tokens azules son incrustaciones almacenadas o calculadas por el modelo de lenguaje preentrenado congelado. A diferencia de Lester y otros (2021), P-tuning v2 agrega señales continuas entrenables a la entrada de cada capa del transformador de forma independiente (como lo hace la optimización de prefijos (Li y Liang, 2021)). Además, P-tuning v2 elimina los verbalizadores con encabezados LM y vuelve a las etiquetas de clase tradicionales con encabezados lineales simples para permitir la generalización de su tarea.

3. Ajuste P v2

3.1 Falta de universalidad

La optimización de sugerencias y el ajuste P han demostrado ser bastante efectivos en muchas aplicaciones de PNL (consulte la Sección 5). Sin embargo, dada la falta de generalización, el ajuste P aún no es una alternativa integral al ajuste fino.

Falta de generalización entre escalas. Lester y otros (2021) muestran que la optimización de sugerencias es comparable al ajuste fino cuando el tamaño del modelo supera los 10 mil millones de parámetros. Pero para esos modelos más pequeños (de 100M a 1B), existe una gran diferencia en el rendimiento de la optimización de sugerencias y el ajuste fino, lo que limita en gran medida la aplicabilidad de la optimización de sugerencias.

Falta de versatilidad entre tareas. Aunque Lester et al. (2021) y P-tuning muestran superioridad en los puntos de referencia de NLU como GLUE y SuperGLUE, no se ha verificado su efectividad en otra gran clase de tareas de NLU de secuencia difícil (es decir, etiquetado de secuencia). En primer lugar, el etiquetado de secuencias requiere predecir una secuencia de etiquetas en lugar de una única etiqueta. En segundo lugar, las anotaciones de secuencia a menudo predicen etiquetas sin sentido, lo que puede ser un desafío para convertirlas en verbalizadores efectivos (Schick y Schütze, 2020). En nuestros experimentos (consulte la Sección 4.3 y la Tabla 3), mostramos que Lester et al. (2021) y el ajuste P funcionan peor que el ajuste fino en tareas típicas de etiquetado de secuencias.

Tabla 3: Resultados de preguntas y respuestas (QA extractivo). El ajuste rápido y el ajuste P funcionan extremadamente mal en la respuesta a preguntas, mientras que el ajuste P v2 funciona básicamente de manera razonable y puede ser mejor que el ajuste fino de DeBERTa-xlarge. (FT: ajuste fino; PT: ajuste P y Lester et al. (2021); PT-2: ajuste P v2; MPT-2: ajuste P multitarea v2)

Teniendo en cuenta estos desafíos, proponemos Ptuning v2, que implementa el ajuste de prefijos como una solución general en tareas de escala y NLU.

3.2 Optimización del mensaje de profundidad

El ajuste de prefijos (Li y Liang, 2021) se propuso originalmente para tareas de generación de lenguaje natural (NLG), pero descubrimos que también es muy eficaz para NLU. Describimos una versión mejorada del prefijo adecuada para NLU.

En (Lester et al., 2021) y P-tuning, las señales continuas solo se insertan en la secuencia de incrustación de entrada de la primera capa del transformador (consulte la Figura 2 (a)). En capas de transformadores posteriores, las incrustaciones de las ubicaciones donde se insertan señales sucesivas se calculan mediante capas de transformadores anteriores, lo que puede conducir a dos posibles desafíos de optimización.

1. El número de parámetros controlables es limitado. Actualmente, la mayoría de los modelos de lenguaje solo admiten una longitud de secuencia máxima de 512 (debido al costo de la complejidad computacional cuadrática de la atención). Si además deducimos la longitud de nuestro contexto (por ejemplo, la oración que se va a clasificar), entonces hay un límite en la longitud que podemos llenar con indicaciones consecutivas.

2. Cuando se utiliza un transformador profundo para realizar ajustes finos, la estabilidad es limitada. A medida que el transformador profundiza, la influencia de las sugerencias de la primera capa del transformador puede ser inesperada debido al cálculo de muchas capas intermedias (con funciones de activación no lineales), lo que hace que nuestra optimización no sea muy fluida.

En vista de estos desafíos, P-tuning v2 utiliza sugerencias multicapa (es decir, optimización de sugerencias profundas), como la optimización de prefijos (Li y Liang, 2021) (consulte la Figura 2 (b)), como complemento al P-tuning y Lester et al. (2021) mejoras importantes. Las sugerencias en diferentes capas se agregan a la secuencia de entrada como tokens de prefijo y son independientes de otras capas (en lugar de ser calculadas por la capa transformadora anterior). Por un lado, de esta manera, P-tuning v2 tiene parámetros específicos de tareas más ajustables (de 0,01% a 0,1%-3%) para permitir más capacidad por tarea, aunque sigue siendo mejor que el lenguaje preentrenado completo. Los modelos son mucho más pequeños; por otro lado, las sugerencias agregadas a capas más profundas (por ejemplo, LayerN Prompts en la Figura 2) pueden tener un impacto más directo y significativo en las predicciones de salida con menos capas intermedias de transformadores (consulte la Sección 4.4).

3.3 Optimización e implementación

También hay algunos detalles útiles de optimización e implementación.

mejoramiento. Reparametrización. Los métodos anteriores aprovechan las funciones de reparametrización para mejorar la velocidad, la solidez y el rendimiento del entrenamiento (por ejemplo, ajuste de prefijo para MLP y ajuste P para LSTM). Sin embargo, para las tareas NLU, encontramos que el beneficio de esta técnica depende de la tarea y el conjunto de datos. Para algunos conjuntos de datos (como RTE y CoNLL04), la reparametrización de MLP aporta mejoras más estables que la incrustación; para otros conjuntos de datos, la reparametrización puede no mostrar ningún efecto (como BoolQ) y, a veces, incluso peor (como CoNLL12). Consulte nuestro estudio de ablación en la Sección 4.4.

mejoramiento. Longitud de la punta. La longitud de la sugerencia juega un papel central en la búsqueda de hiperparámetros para métodos de optimización de sugerencias. En nuestros experimentos, descubrimos que diferentes tareas de comprensión generalmente logran su mejor rendimiento con diferentes longitudes de sugerencia, lo cual es consistente con los hallazgos en el ajuste de prefijos (Li y Liang, 2021), y diferentes tareas de generación de texto pueden tener diferentes longitudes óptimas de sugerencia. . Ver discusión en la Sección 4.4.

mejoramiento. Aprendizaje multitarea. El aprendizaje multitarea es opcional para nuestro método, pero puede resultar muy útil. Por un lado, la inercia estocástica de las señales continuas plantea dificultades para la optimización, que pueden aliviarse con más datos de entrenamiento o preentrenamiento no supervisado relacionado con las tareas (Gu et al., 2021); por otro lado, las señales continuas son transversales. Un vehículo perfecto para el conocimiento específico de tareas y conjuntos de datos. Nuestros experimentos muestran que en algunas tareas de secuencia difíciles, el aprendizaje multitarea puede servir como un complemento útil para P-tuning v2, denominado MPT-2 (consulte las Tablas 2, 3, 4).

Tabla 2: Resultados del conjunto de pruebas de reconocimiento de entidades nombradas (NER) (todas las métricas son puntuaciones micro-f1). P-tuning v2 es generalmente comparable al ajuste fino, mientras que P-tuning v2 multitarea puede aportar más mejoras. (FT: ajuste fino; PT: ajuste P y Lester et al. (2021); PT-2: ajuste P v2; MPT-2: ajuste P multitarea v2)

implementación. [CLS] y clasificación de anotaciones, no verbalizador. Verbalizer (Schick y Schütze, 2020) ha sido un componente central de la optimización de sugerencias, convirtiendo etiquetas de clases únicas en palabras significativas para aprovechar los cabezales de modelos de lenguaje previamente entrenados. A pesar de su posible necesidad en el entorno de pocos disparos, los verbalizadores no son necesarios en el entorno supervisado con datos completos. Dificulta la aplicación de optimización de sugerencias en escenarios donde necesitamos etiquetas sin sentido e incrustaciones de oraciones. Por lo tanto, P-tuning v2 regresa al paradigma tradicional de clasificación de etiquetas [CLS] (ver Fig. 2) con un cabezal lineal inicializado aleatoriamente. Ver comparación en la Sección 4.4.

4. Experimentar

4.1 Configuración

Realizamos experimentos extensos en diferentes modelos previamente entrenados y tareas NLU de uso común para verificar la efectividad de P-tuning v2.

Configuración de evaluación. En este trabajo, todos los resultados para “sintonización rápida”, “sintonización P”, “sintonización P v2” y “sintonización P multitarea v2” se obtienen congelando los parámetros del transformador y optimizando solo las indicaciones continuas de. La proporción de parámetros específicos de la tarea (por ejemplo, 0,1%) se obtiene comparando los parámetros del aviso continuo con los parámetros del transformador. Sólo se obtienen resultados "ajustados" ajustando los parámetros del transformador (sin utilizar indicaciones continuas).

Otra cosa a tener en cuenta es que todos nuestros experimentos se realizaron en el contexto de un aprendizaje supervisado con datos completos, en lugar de un aprendizaje de pocas tomas, lo cual es importante porque algunas de las características que explotamos (por ejemplo, el uso de etiquetas de clases con cabezas lineales en lugar de altavoces con cabezales LM) sólo es posible en un entorno supervisado.

Tareas de la UNL. Primero, incluimos conjuntos de datos parciales de los puntos de referencia GLUE (Wang et al., 2018) y SuperGLUE (Wang et al., 2019) para probar las capacidades generales de NLU de P-tuning v2, incluidos SST-2, MNLI-m, RTE. , BoolQ y CB. Más importante aún, introducimos un conjunto de tareas en forma de anotaciones de secuencia, que requieren que el modelo de lenguaje prediga la categoría de cada anotación en la secuencia de entrada, incluido el reconocimiento de entidades nombradas (CoNLL03 (Sang y De Meulder, 2003), OntoNotes 5.0 ( Weischedel et al. 2013) y CoNLL04 (Carreras y Màrquez, 2004)), respuesta a preguntas extractivas (SQuAD 1.1 y SQuAD 2.0 (Rajpurkar et al., 2016)) y etiquetas de roles semánticos (CoNLL05 (Carreras y Màrquez, 2005) y CoNLL12 (Pradhan et al. Personas, 2012)).

Modelo previamente entrenado. Incluimos BERT-large (Devlin et al., 2018), RoBERTa-large (Liu et al., 2019), DeBERTa-xlarge (He et al., 2020), GLMxlarge/xxlarge (Du et al., 2021) para evaluación. Ambos son modelos bidireccionales diseñados para fines NLU y cubren una amplia gama de tamaños, desde ~300M hasta 10B.

Métodos de comparación. Comparamos nuestro P-tuning v2 (PT-2) con el ajuste fino básico (FT), P-tuning y Lester et al. (2021) (PT). Además, para la difícil tarea relacionada con el etiquetado de secuencias, presentamos los resultados del P-tuning v2 (MPT-2) multitarea; consulte la Sección 4.3 para obtener más detalles.

4.2 P-tuning v2: diferentes escalas

La Tabla 1 muestra el rendimiento de P-tuning v2 en diferentes tamaños de modelo. Para tareas NLU simples como SST-2 (clasificación de una sola oración), Lester et al. (2021) y P-tuning no muestran desventajas obvias en escalas más pequeñas. Pero cuando se trata de desafíos complejos, como el razonamiento en lenguaje natural (RTE) y la respuesta a preguntas de opción múltiple (BoolQ), su desempeño es muy pobre. Por el contrario, P-tuning v2 iguala el rendimiento del ajuste fino en todas las tareas a escalas más pequeñas. Para nuestra sorpresa, P-tuning v2 funciona significativamente mejor que el ajuste fino en RTE, especialmente en BERT.

Tabla 1: Resultados en algunos conjuntos de desarrollo de GLUE y SuperGLUE (todas las métricas son precisas). En modelos de menos de 10B, P-tuning v2 supera significativamente a P-tuning y Lester et al. (2021) y es consistente con el rendimiento del ajuste fino. (FT: ajuste fino; PT: ajuste P y Lester et al. (2021); PT-2: ajuste P v2)

Para GLM de mayor escala (2B a 10B) (Du et al., 2021), la brecha entre el P-tuning y Lester et al. (2021) y el ajuste fino se estrecha gradualmente. En la escala 10B, tenemos una observación similar a la informada por (Lester et al., 2021), es decir, que la optimización de sugerencias se vuelve competitiva con el ajuste fino. Sin embargo, P-tuning v2 es comparable al ajuste fino en todas las escalas, pero solo requiere el 0,1% de los parámetros específicos de la tarea en comparación con el ajuste fino.

Además, observamos que RoBERTa-large tiene un peor rendimiento que BERT-large en algunos conjuntos de datos. Esto se debe en parte a que hemos descubierto empíricamente que la optimización de sugerencias es bastante sensible a los hiperparámetros y, a veces, la optimización se atasca. P-tuning v2 puede ser más estable y robusto durante el proceso de optimización. Para obtener más detalles sobre los hiperparámetros, consulte nuestra base de código.

4.3 P-tuning v2: tareas de extensión

En la Sección 4.2, analizamos la coherencia del ajuste P v2, que es comparable al ajuste fino a cualquier escala. Sin embargo, la mayoría de las tareas de GLUE y SuperGLUE son problemas NLU relativamente simples. Otra familia importante de desafíos difíciles de NLU radica en la anotación de secuencias, que está relacionada con algunas aplicaciones de PNL más avanzadas, incluida la extracción de información abierta, la comprensión lectora, etc.

Para evaluar las capacidades de P-tuning v2 en estos difíciles desafíos de NLU, seleccionamos tres tareas típicas de etiquetado de secuencias. Reconocimiento de entidades de nombres, respuesta a preguntas extractivas (QA) y etiquetado de roles semánticos (SRL), un total de ocho conjuntos de datos.

Tabla 4: Resultados sobre etiquetas de roles semánticos (SRL). P-tuning v2 muestra mejoras consistentes en SRL con respecto a Lester et al. (2021) y P-tuning. (FT: Ajuste fino; PT: P-Tune y Lester et al. (2021); PT-2: P-Tune v2; MPT-2: Multitarea P-Tune v2)

Reconocimiento de entidad nombrada (NER). El propósito de NER es predecir todos los intervalos de palabras y oraciones que representan una categoría de entidad determinada. Adoptamos CoNLL03 (Sang y De Meulder, 2003), OntoNotes 5.0 (Weischedel et al., 2013) y CoNLL04 (Carreras y Màrquez, 2004). Para CoNLL03 y CoNLL04, entrenamos nuestros modelos en la división estándar tren-desarrollo-prueba. Para OntoNotes 5.0, utilizamos la misma división de capacitación, desarrollo y pruebas que (Xu et al., 2021b). Todos los conjuntos de datos están anotados en formato IOB2. Usamos anotación de secuencia para resolver la tarea de NER asignando etiquetas para etiquetar el comienzo de las entidades y algunas categorías dentro de ellas. El modelo de lenguaje genera una representación para cada token y usamos un clasificador lineal para predecir la etiqueta. Utilizamos el script oficial para evaluar los resultados. Para la configuración de tareas múltiples, combinamos los conjuntos de entrenamiento de los tres conjuntos de datos para el entrenamiento previo. Usamos diferentes clasificadores lineales para cada conjunto de datos mientras compartimos información de sugerencias continua.

(Extractivo) Preguntas y Respuestas (QA). El control de calidad extractivo consiste en extraer respuestas de un contexto y una pregunta determinados. Usamos SQuAD (Rajpurkar et al., 2016) 1.1 y 2.0, donde cada respuesta está dentro de un lapso contiguo del contexto. Siguiendo la tradición, formulamos el problema como etiquetado de secuencia, asignándole una de dos etiquetas. Asigne a cada etiqueta una de las dos etiquetas "Inicio" o "Fin" y, finalmente, seleccione el intervalo de los pares de inicio y fin más seguros como respuesta extraída. Si la probabilidad del par más seguro está por debajo del umbral, el modelo Se asumirá que la pregunta no tiene respuesta. Para el entorno de tareas múltiples, el conjunto de entrenamiento que utilizamos para el preentrenamiento combina los conjuntos de entrenamiento de SQuAD 1.1 y 2.0. Durante el preentrenamiento, asumimos que todas las preguntas, independientemente de su origen, no tienen respuesta.

Etiquetas de roles semánticos (SRL). SRL asigna etiquetas a palabras o frases en una oración, indicando su papel semántico en la oración. Evaluamos P-tuning v2 en CoNLL05 (Carreras y Màrquez, 2005) y CoNLL12 (Pradhan et al., 2012). Dado que una oración puede tener varios verbos, agregamos un token de verbo objetivo al final de cada oración para ayudar a identificar qué verbo se usa para la predicción. Clasificamos cada palabra utilizando un clasificador lineal basado en su correspondiente representación de rol semántico. Para el entorno de tareas múltiples, el conjunto de entrenamiento previo al entrenamiento es una combinación de conjuntos de entrenamiento de CoNLL05 (Carreras y Màrquez, 2005), CoNLL12 (Pradhan et al., 2012) y propbank-release (datos extendidos comunes utilizados para entrenar SRL) . La estrategia de formación multitarea es similar a NER.

resultado. En las Tablas 2, 3 y 4, observamos que Ptuning v2 es comparable al ajuste fino en todas las tareas. P-tuning y Lester et al. (2021) obtienen resultados mucho peores, especialmente en control de calidad, que es probablemente el desafío más difícil de las tres tareas. También notamos que aparecieron algunos resultados inusuales en SQuAD 2.0 (BERT/RoBERTa/DeBERTa mostraron el mismo rendimiento usando Lester et al. (2021) y P-tuning). Esto puede deberse a que SQuAD 2.0 contiene preguntas sin respuesta en comparación con SQuAD 1.1, mientras que Lester et al. (2021) y P-tuning pueden conducir a soluciones triviales.

El P-tuning v2 multitarea generalmente conduce a mejoras claras en las tareas generales, con la excepción del control de calidad (que nuevamente puede ser el resultado de mezclar todos los SQuAD 1.1 con respuesta y SQuAD 2.0 sin respuesta), lo que significa que el potencial de solicitudes de inicialización aleatorias no tiene importancia. completamente desarrollado.

4.4 Estudios de ablación

Estudiamos algunos hiperparámetros y diseños arquitectónicos importantes que pueden desempeñar un papel central en P-tuning v2.

Profundidad de señal. Lester y otros (2021) & La principal diferencia entre P-tuning y P-tuning v2 es la indicación continua de múltiples capas que presentamos. Intuitivamente, cuanto más profunda sea la capa del transformador en la que se encuentre una pista, más directo será su impacto en la predicción de salida debido a las muchas funciones de activación no lineales de las capas intermedias del transformador. Para verificar su impacto exacto, dado un cierto número k para agregar sugerencias, seleccionamos k capas en orden ascendente y descendente para agregar sugerencias como tokens de prefijo; para las capas restantes, cambiamos sus máscaras de atención y no permitimos sus sugerencias de prefijo. Participar en los cálculos.

Como se muestra en la Figura 4, cuando la cantidad de parámetros es la misma (es decir, la cantidad de capas de transformador para agregar solicitudes), agregar en orden descendente siempre es mejor que agregar en orden ascendente. En el caso de RTE, agregar indicaciones solo en las capas 17 a 24 produce un rendimiento muy similar al de todas las capas, lo que reduce aún más los parámetros que podríamos necesitar ajustar para lograr un ajuste fino.

Figura 4: Estudio de ablación de la profundidad de la señal utilizando BERTlarge. "[xy]" se refiere al intervalo de capa en el que agregamos señales consecutivas (por ejemplo, "21-24 " significa que agregamos señales al transformador capas 21 a 24). La misma cantidad de sugerencias consecutivas agregadas a capas de transformador más profundas (es decir, más cercanas a la capa de salida) puede producir un mejor rendimiento que agregarlas a la capa inicial.

Incrustación y reparametrización de MLP. En el ajuste fino de prefijos (Li y Liang, 2021) y Ptuning (Liu et al., 2021b), los autores encontraron que la reparametrización es útil para mejorar la velocidad, la solidez y el rendimiento del entrenamiento. Sin embargo, los experimentos que realizamos muestran que el efecto de la reparametrización es inconsistente en diferentes conjuntos de datos y tareas de NLU.

Como se muestra en la Figura 3, en RTE y CoNLL04, la reparametrización del MLP generalmente muestra un mejor rendimiento que la incrustación en casi todas las duraciones del mensaje. Sin embargo, en BoolQ, los resultados de MLP y la incrustación son competitivos; en CoNLL12, los resultados de la incrustación son consistentemente mejores que los de MLP.

Figura 3: Estudio de ablación de la longitud de la señal y reparamerización utilizando RoBERTa-large. Dadas determinadas tareas y conjuntos de datos de la NLU, las conclusiones pueden ser muy diferentes. (MQA: control de calidad de opción múltiple)

Longitud de la punta. La longitud de la sugerencia es otro hiperparámetro influyente de P-tuning v2, cuyo valor óptimo varía de una tarea a otra. En la Figura 3 observamos que para tareas NLU simples, las indicaciones más cortas generalmente logran el mejor rendimiento; para tareas de secuencia difícil, generalmente las indicaciones más largas que 100 son útiles.

También encontramos que la reparametrización está estrechamente relacionada con la longitud óptima de la señal. Por ejemplo, en RTE, CoNLL04 y BoolQ, la reparametrización del MLP alcanza sus resultados óptimos antes de la incrustación. Esta conclusión puede ayudar a pensar en las características de optimización del P-tuning.

Verbalizador con encabezado LM y etiqueta [CLS] con encabezado lineal. El verbalizador con cabeza LM ha sido un componente central de métodos de ajuste sugestivos anteriores. Sin embargo, en el entorno supervisado, ajustar un parche lineal con unos pocos miles de parámetros es asequible para P-tuning v2. Presentamos nuestra comparación en la Tabla 5, donde mantenemos los otros hiperparámetros y solo cambiamos el encabezado lineal de la etiqueta [CLS] al encabezado LM del verbalizador. Aquí, por simplicidad, utilizamos "verdadero" y "falso" para SST-2, RTE y BoolQ; y "verdadero", "falso" y "neutral" para CB. Los resultados muestran que no existe una diferencia significativa en el desempeño entre el verbalizador y [CLS].

Tabla 5: Comparación entre etiquetas [CLS] con encabezados lineales y lenguaje hablado con encabezados LM en RoBERTa-large.

5. Trabajo relacionado

Modelo de lenguaje previamente entrenado. Los modelos de lenguaje autosupervisados ​​(Liu et al., 2020) y previamente entrenados (Han et al., 2021a) se han convertido en la columna vertebral del procesamiento del lenguaje natural. Desde los primeros GPT (Radford et al., 2019), BERT (Devlin et al., 2018), XLNet (Yang et al., 2019), RoBERTa (Liu et al., 2019) con un número limitado de parámetros (menos de 350M), T5 (Raffel et al., 2019) et al., 2019) y GPT-3 (Brown et al., 2020) han promovido el desarrollo de modelos de lenguaje gigantes con miles de millones o incluso billones de parámetros.

pista. Hinting (Liu et al., 2021a) se refiere al uso de plantillas especiales en el contexto de entrada para ayudar a comprender y generar predicciones de modelos de lenguaje. Recientemente, debido al éxito de GPT-3 (Brown et al., 2020), han surgido varias estrategias de estimulación, incluidas indicaciones discretas en lenguaje natural (Shin et al., 2020; Gao et al., 2020), indicaciones continuas (Liu et al., 2021b; Li y Liang, 2021; Lester et al., 2021; Qin y Eisner, 2021; Zhong et al., 2021), ajustando por sesgo (Logan IV et al., 2021) y muchas otras sugerencias. estrategias.

Las ventajas y la eficacia de los métodos de estimulación en una amplia gama de aplicaciones de PNL se han verificado en la literatura reciente, incluida la clasificación de textos (Hu et al., 2021; Min et al., 2021; Sun et al., 2021; Li et al. , 2021; Zhang et al., 2021b), tipificación de entidades (Ding et al., 2021), aprendizaje humano en pocas oportunidades (Zheng et al., 2021; Xu et al. 2021a; Zhao et al., 2021; Gu et al., 2021; Zhang et al., 2021a), extracción de relaciones (Chen et al., 2021a; Han et al., 2021b; Sainz et al., 2021), detección de conocimientos (Zhong et al., 2021), denominado reconocimiento de entidades (Chen et al., 2021) 2021b), traducción automática (Tan et al., 2021; Wang et al., 2021b) y sistemas de diálogo (Wang et al., 2021a).

En este trabajo, nos centramos específicamente en extender los métodos de sugerencias a modelos más pequeños y tareas NLU secuenciales difíciles.

6. Resumen

Proponemos P-tuning v2, un método de indicación que es comparable al ajuste fino en diferentes escalas y tareas. P-tuning v2 no es un enfoque conceptualmente nuevo, sino un desafío NLU de optimizar y adaptar la optimización de prefijos y la optimización de sugerencias de profundidad. Ptuning v2 muestra una mejora constante en los modelos del 330M al 10B y supera a Lester et al. (2021) y al P-tuning por un amplio margen en tareas de secuencia difíciles, como la anotación de secuencia. Ptuning v2 puede convertirse en una alternativa integral para realizar ajustes y una base sólida para trabajos futuros.

Supongo que te gusta

Origin blog.csdn.net/chaishen10000/article/details/131304269
Recomendado
Clasificación