[Lectura intensiva en papel clásico de PNL] BERT: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje

prefacio

BERT juega un papel fundamental en la promoción del desarrollo de la PNL. Su diseño simple, despliegue e implementación generales, y el exitoso paradigma de pre-entrenamiento + ajuste han inspirado muchos diseños posteriores. Este artículo es el segundo del artículo clásico de PNL, con la esperanza de ayudar a los lectores a comprender mejor BERT.


Documento: https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ
Código: https://github.com/google-research/bert

Abstracto

Este artículo propone el modelo BERT, que se basa en la implementación de Transformador de representación de codificación bilateral. Su objetivo es entrenar previamente las representaciones bidireccionales de texto sin etiquetar mediante el condicionamiento de la información contextual izquierda y derecha en todas las capas, lo que requiere solo una capa de salida adicional para ajustarse a escenarios de tareas específicos. El concepto de BERT es simple y el efecto es notable Ha logrado SOTA en once tareas de PNL.

1. Introducción

Se ha demostrado que los modelos de lenguaje previos al entrenamiento mejoran muchas tareas de PNL, incluidas las tareas a nivel de oraciones y de palabras. Existen dos estrategias de entrenamiento previo:

  • basado en características. Como ELMo, utilizando una arquitectura específica de tareas (RNN).
  • Basado en el ajuste fino, como GPT, entrene las tareas posteriores simplemente ajustando los parámetros previamente entrenados.

Ambos usan un modelo de lenguaje unidireccional para aprender una representación general del lenguaje. Sin embargo, unidireccional limita la elección de la arquitectura del modelo de pre-entrenamiento, lo que resulta en la incapacidad de aprender información óptima para tareas de nivel de oración y nivel de palabra.
El BERT de este documento se basa en el codificador bidireccional de Transformer Inspirado en la tarea cloze, BERT alivia el problema unidireccional mediante el uso de objetivos de preentrenamiento de MLM. MLM enmascara aleatoriamente los tokens en la entrada y predice los tokens originales según el contexto. A diferencia de GPT, MLM combina información de contexto izquierda y derecha y puede entrenar previamente un transformador bidireccional profundo. Además, el autor también construyó la tarea NSP, que consiste en predecir la relación entre la oración actual y la oración siguiente. Las contribuciones de este trabajo son las siguientes:

  • Este artículo muestra la importancia del pre-entrenamiento bidireccional para la representación del lenguaje.
  • Las representaciones preentrenadas reducen la complejidad de las arquitecturas específicas de tareas.
  • BERT logra SOTA en once escenarios de tareas.

2. Trabajo relacionado

2.1 Enfoques basados ​​en características no supervisados

Las representaciones de nivel de palabra preentrenadas proporcionan una mejora significativa con respecto a las incrustaciones de entrenamiento desde cero. Para entrenar previamente las representaciones a nivel de palabra, el trabajo anterior utiliza objetivos de modelado de lenguaje de izquierda a derecha y un objetivo para distinguir palabras correctas e incorrectas en contextos de izquierda y derecha, entre otros.
ELMo estudia los métodos tradicionales de incrustación de palabras desde diferentes direcciones, extrae las características del contexto de izquierda a derecha y luego de derecha a izquierda, y promueve el desarrollo de múltiples tareas de NLP.Este trabajo muestra que la tarea cloze puede mejorar el rendimiento de los modelos de generación de texto. .

2.2 Enfoques de ajuste fino no supervisados

Recientemente, existe un enfoque novedoso para entrenar previamente oraciones a partir de texto sin etiquetar y luego ajustarlas para tareas posteriores. La ventaja de este enfoque es que no hay necesidad de volver a entrenar los parámetros. El trabajo representativo es GPT, que ha logrado SOTA en múltiples tareas de nivel de oración.

2.3 Transferencia de aprendizaje a partir de datos supervisados

Muchos trabajos se transfieren de manera eficiente desde tareas supervisadas con datos a gran escala, como la inferencia de lenguaje natural, la traducción automática.

3. BERT

La arquitectura BERT tiene dos pasos: entrenamiento previo y ajuste fino. El entrenamiento previo se entrena en datos no etiquetados, mientras que el ajuste fino toma parámetros previamente entrenados y los ajusta utilizando datos supervisados ​​de tareas posteriores.
imagen.png
La característica distintiva de BERT es la arquitectura unificada entre tareas. La arquitectura de BERT es esencialmente un codificador de transformador bidireccional multicapa. En este documento, L representa el número de bloques de transformador, la longitud del vector oculto es H y el número de encabezados es A. Este documento proporciona dos escalas del modelo BERT. Base BERT \mathbf{BERT_{base}}BER TbasesBERT grande \mathbf{BERT_{grande}}BER Tgrande, el primero L=12, H=768, A=12, parámetro cantidad 110M, el último L=24, H=1024, A=16, parámetro cantidad 340M.

Aquí es necesario explicar cómo cambian H y A con L y el proceso de cálculo de los parámetros. A medida que se duplica el número de capas, se espera que también se duplique el número de parámetros del modelo, pero el número de parámetros aumenta con el cuadrado de H, por lo que para duplicar el número de parámetros, es más apropiado establecer H a 1024. A también cambia con H, porque para mantener consistentes las dimensiones de las posiciones largas, es decir, H/A debe ser igual (64 aquí), por lo que A se establece en 16 en grande. El cálculo de los parámetros se muestra en la siguiente figura, donde 30k es el tamaño del vocabulario, y la explicación detallada se puede encontrar en el video de Mushen.

imagen.png
Para que BERT maneje una serie de tareas posteriores, la representación de entrada permite que una secuencia de tokens represente sin ambigüedades una sola oración o un par de oraciones, donde la secuencia de tokens es un rango continuo, no una oración real.
El autor usa la incrustación de WordPiece para procesar un vocabulario de un tamaño de 30 K. El primer token de cada secuencia es [CLS]. El último estado de vector oculto del token se usa para la representación de la secuencia de agregación de la tarea de clasificación. Hay dos formas de distinguir los pares de oraciones. Primero, los dos están separados por un token especial [SEP]. Segundo, el autor agrega una incrustación aprendible para cada token para saber si el token pertenece a la primera oración o a la segunda oración.
La incrustación de cada token es la suma de su incrustación de token, incrustación de segmento e incrustación de posición. El proceso de visualización es el siguiente:
imagen.png

3.1 BERT previo al entrenamiento

El pre-entrenamiento emplea dos tareas de aprendizaje no supervisadas.

LM enmascarado

Usar directamente el modelo bidireccional aprenderá más información que el modelo unidireccional Para entrenar la representación bidireccional, el autor enmascara aleatoriamente una cierta proporción de tokens y luego predice estos tokens a través de la salida de la última capa. de tokens a través de softmax. Esta tarea se denomina MLM o tarea de cloze. En el experimento, la proporción de máscara es del 15%.
Pero solo una máscara simple causará una discrepancia entre el entrenamiento y el ajuste fino (porque [máscara] no aparece en el ajuste fino), por lo que para el 15% de tokens seleccionados, el 80% se usa para la máscara, el 10% se reemplaza por tokens aleatorios. tokens, y el 10% permanece sin cambios.

Predicción de la siguiente oración (NSP)

Muchas tareas posteriores, como la respuesta a preguntas y la comprensión del lenguaje natural, se basan en la comprensión de la relación entre dos oraciones, pero los modelos de lenguaje no pueden capturar directamente esta relación. Para aprender características a nivel de oración, se construye la tarea NSP. Cuando el autor construye pares de oraciones, el 50% son oraciones adyacentes y el 50% no son adyacentes.

Datos previos al entrenamiento

El corpus de pre-entrenamiento usa 800M BooksCorpus y 2500M Wikipedia en inglés.

3.2 Ajuste fino del BERT

Para cada tarea, solo es necesario ingresar la entrada y la salida de la tarea en BERT y luego realizar un ajuste fino de extremo a extremo. Para la tarea a nivel de palabra, la representación del token se alimenta al MLP para obtener el resultado, y para la tarea a nivel de oración, la representación [CLS] se alimenta al resultado de salida del MLP.
El proceso de ajuste requiere menos tiempo que el proceso de pre-entrenamiento.

4. Experimentos

4.1 PEGAMENTO

El punto de referencia de GLUE es una colección de varias tareas de comprensión del lenguaje natural. Para afinar GLUE, el autor ingresa los datos en BERT y usa el último vector oculto del token [CLS] C ∈ RHC \ en \mathbb{R } ^HCRH se representa como agregado. El único parámetro introducido por el proceso de ajuste fino es el pesoW ∈ RK × HW \in \mathbb{R}^{K×H}WRK × H , dondeKKK es el número de etiquetas. El autor usaCCC yWWW calcula la pérdida de clasificación estándar, es decir,log ( softmax ( CWT ) ) \mathrm{log(softmax}(CW^T))registro ( softmax ( C WT )).
imagen.png
El efecto de entrenamiento en algunos conjuntos de datos a pequeña escala es inestable, por lo que el autor elige como resultado el mejor rendimiento en estos conjuntos de datos. De hecho, la razón del bajo rendimiento es que el autor eligió 3 épocas en el experimento, es decir, solo 3 escaneos completos del conjunto de datos, lo que obviamente no es suficiente. Solo aumentando el número de épocas se pueden obtener resultados estables. .
Los resultados experimentales se muestran en la tabla anterior,BERT base \mathbf{BERT_{base}}BER TbasesBERT grande \mathbf{BERT_{grande}}BER TgrandeAmbos mejoran SOTA y superan a GPT con una arquitectura de modelo similar. A medida que aumenta el tamaño del modelo, el rendimiento del modelo es mejor.

4.2 EQUIPO v1.1

El conjunto de datos de preguntas y respuestas de Stanford recopila 100 000 pares de preguntas y respuestas de colaboración colectiva. La tarea es predecir el rango del texto de respuesta en el artículo, esencialmente marcando la posición inicial S y la posición final E del texto. Los resultados se muestran en la siguiente tabla:
imagen.png
los mejores resultados se entrenan previamente en el conjunto de datos de TriviaQA y luego se ajustan en SQuAD.

4.3 EQUIPO v2.0

El conjunto de datos se amplía sobre la base de v1.1, de modo que no hay una secuencia corta de respuestas, por lo que las preguntas son más realistas.
imagen.png
La tabla anterior es el resultado del entrenamiento y se observa que BERT es 5.1 más alto que SOTA.

4.4 BOTIN

El conjunto de datos SWAG contiene 113K pares de oraciones para evaluar el razonamiento de sentido común. Dada una oración, la tarea es elegir la siguiente oración más razonable entre las cuatro opciones. Al realizar el ajuste fino, el autor construye cuatro secuencias de salida para cada muestra, cada secuencia contiene una oración dada A y una posible oración siguiente B. La salida de la última capa de [CLS] es la puntuación. Los resultados se muestran en la tabla de abajo:
imagen.png

El efecto es un 27,1 % superior al valor inicial y un 8,3 % superior al GPT.

5. Estudios de ablación

5.1 Efecto de las tareas previas al entrenamiento

Esta sección evalúa la importancia de dos tareas de preentrenamiento utilizando los mismos datos de preentrenamiento, esquema de ajuste fino y parámetros.
Sin NSP: use solo la tarea de preentrenamiento de MLM sin NSP.
LTR&No NSP: cambie el modelo bidireccional a un modelo unidireccional de izquierda a derecha y use un LM estándar de izquierda a derecha para el entrenamiento. Equivalente a GPT, pero entrenado previamente en diferentes datos.
imagen.png
La tabla anterior muestra el rendimiento de diferentes modelos. Se puede ver que eliminar NSP dañará el rendimiento del modelo y, además, no usar el modelo bidireccional empeorará el rendimiento del modelo. El autor trató de aumentar el rendimiento de LTR&NO NSP y agregó BiLSTM sobre esta base, lo que mejoró el rendimiento del modelo, pero hay una brecha en comparación con BERT.

5.2 Efecto del tamaño del modelo

imagen.png
El autor probó modelos de diferentes escalas y los resultados de rendimiento se muestran en la tabla anterior. Se puede ver que el modelo más grande trae importantes mejoras de rendimiento en los cuatro conjuntos de datos. Los autores argumentan que, siempre que el modelo esté lo suficientemente entrenado previamente, la fase de ajuste fino puede conducir a grandes mejoras incluso en tareas pequeñas al aumentar el tamaño del modelo.

5.3 Enfoque basado en características con BERT

Como método basado en el entrenamiento previo, BERT solo necesita una capa de clasificación simple para lograr buenos resultados, pero el método basado en la extracción de características también tiene ciertas ventajas. En primer lugar, no todas las tareas se pueden realizar con codificadores Transformer (no para generar tareas), y el costo de la capacitación previa es alto.
Los dos métodos se comparan aquí.
imagen.png
Por lo tanto, BERT no está ajustado aquí, sino que se ingresa como una función estática y el efecto no es tan bueno como el ajuste fino.

6. Conclusión

Los resultados recientes del aprendizaje por transferencia basado en modelos lingüísticos sugieren que el preentrenamiento rico y no supervisado es una parte integral de los sistemas de comprensión del lenguaje, y la principal contribución de este documento es generalizar aún más este trabajo a un bidireccional más profundo. El modelo entrenado puede generalizarse a más Tareas de PNL.

leer resumen

En comparación con GPT y Transformer, BERT puede ser más conocido en los primeros dos años, aunque solo interceptó la parte del codificador de Transformer y luego realizó algunas mejoras: se agregaron dos tareas de preentrenamiento y se agregó la incrustación de segmentos al Entrada Sin trabajo extra. Aunque la implementación es muy simple, esto proporciona un buen paradigma para la tendencia en el campo de la PNL, es decir, pre-entrenamiento + ajuste fino, que se ha aplicado antes en el campo de CV, y BERT lo aplicó con éxito al campo de PNL. . Además, el artículo también presenta la conclusión de que cuanto más grande es el modelo, mejor es el rendimiento, lo que también sienta una base sólida para la gran competencia de modelos de idiomas de hoy.
La idea general del artículo es clara, la lógica es meticulosa y el diseño de cada parte está muy bien explicado. Este tipo de escritura aún vale mucho la pena aprender. Finalmente, recomiendo encarecidamente el video explicativo de Mushen, que te dará una comprensión más profunda del artículo.

Supongo que te gusta

Origin blog.csdn.net/HERODING23/article/details/131865915
Recomendado
Clasificación