Mejorando la Comprensión del Lenguaje por Pre-Entrenamiento Generativo

prefacio
Abstracto
1. Introducción
2. Enfoque
3. Experimentos
4. Generalización vs Memorización
5. Trabajo relacionado
6. Discusión
leer resumen

prefacio

Un artículo que es particularmente inspirador para mí. Aunque el rendimiento de GPT-2 no es satisfactorio, vale la pena aprender y aprender de las ideas detrás de él. Si no hay GPT-2, tal vez la era de los modelos a gran escala de hoy no será adviento.

Papel: https://insightcivic.s3.us-east-1.amazonaws.com/language-models.pdf
Código: https://github.com/openai/gpt-2

Abstracto

Las tareas típicas de comprensión del lenguaje natural requieren aprendizaje supervisado bajo tareas específicas.Sin embargo, este documento demuestra que bajo el conjunto de datos de WebText de un millón de niveles, el modelo puede aprender tareas sin ninguna supervisión explícita. El tamaño del modelo de lenguaje es muy importante para zero-shot, y aumentarlo puede mejorar el rendimiento de forma logarítmica lineal. Además, los autores encontraron posible aprender tareas a partir de demostraciones en lenguaje natural.

1. Introducción

Los sistemas de aprendizaje automático actuales son sensibles a la distribución de datos y las especificaciones de tareas y no tienen capacidades generales. Los autores esperan construir un sistema general que pueda aplicarse directamente a tareas específicas sin datos de supervisión. El autor cree que la razón de la poca capacidad de generalización de los sistemas de aprendizaje automático actuales es que solo realizan entrenamiento supervisado en una sola tarea, por lo que centran su atención en el entrenamiento multitarea, que es un marco prometedor para mejorar el rendimiento del modelo. Los mejores sistemas actuales para modelos de lenguaje combinan paradigmas de preentrenamiento y ajuste fino, pero aún se requiere entrenamiento supervisado para tareas específicas. Por lo tanto, este documento combina estos dos trabajos para demostrar el modelo de lenguaje en la configuración de tiro cero. con resultados avanzados.

2. Enfoque

El núcleo del método es el modelado del lenguaje, que generalmente se construye como un conjunto de ejemplos $x_1,x_2,...,x_n)$ , cada ejemplo se puede estimar mediante una secuencia de tokens de longitud variable $s_1,s_2,...,s_n)$ , dado que el lenguaje tiene un orden natural, la probabilidad conjunta de las fichas generalmente se descompone en el producto de probabilidades condicionales:
$(x)=\prod_{i=1}^{n} p(s_n|s_1,...,s_{n-1})$
Dado que el sistema de propósito general puede realizar múltiples tareas diferentes, para la misma entrada, también es necesario agregar las condiciones de la tarea. Dado que el aprendizaje supervisado tiene el mismo objetivo que el aprendizaje no supervisado, el objetivo del aprendizaje no supervisado es también el mínimo global del objetivo del aprendizaje supervisado. El problema con el aprendizaje no supervisado es si puede lograr la convergencia mediante la optimización de los objetivos de la tarea. Se puede demostrar a través de experimentos que un modelo de lenguaje lo suficientemente grande puede realizar el aprendizaje de múltiples tareas en este entorno, pero la velocidad de aprendizaje es mucho más lenta que el aprendizaje supervisado.

2.1 Conjunto de datos de entrenamiento

Donde el trabajo previo se ha entrenado en conjuntos de datos de un solo dominio, nuestro enfoque fomenta la construcción de conjuntos de datos tan grandes y diversos como sea posible para recopilar demostraciones de tareas en lenguaje natural en tantos dominios y contextos como sea posible.
Un enfoque prometedor es la captura de red, que, si bien es grande en un orden de magnitud, tiene una calidad de texto baja. Para ello, este artículo diseña un nuevo método de rastreo web, que solo rastrea páginas web filtradas por humanos, y obtiene un conjunto de datos WebText que contiene 45 millones de enlaces. Después de la limpieza, contiene más de 8 millones de documentos, con un total de 40 GB de texto. . Para evitar filtraciones de datos, se eliminó el texto que aparecía en Wikipedia.

2.2 Representación de entrada

Un modelo de lenguaje general puede generar probabilidades para todos los caracteres. Los modelos lingüísticos actuales requieren un preprocesamiento de datos, incluidas las mayúsculas, la segmentación de palabras y las palabras fuera del vocabulario. Si bien la conversión de cadenas Unicode a secuencias de bytes UTF-8 puede satisfacer cualquier requisito de modelado, el LM de nivel de carácter no se puede comparar con el LM de nivel de palabra en conjuntos de datos a gran escala.
La codificación de pares de bytes (BPE) es un compromiso entre el modelado del lenguaje a nivel de caracteres y de palabras. Puede insertar eficientemente entradas a nivel de palabra en secuencias de símbolos frecuentes y entradas a nivel de caracteres en secuencias de símbolos poco frecuentes. Se implementa en base a Unicode, y el tamaño del vocabulario básico ha llegado a 130.000.
Sin embargo, no es ideal aplicar BPE directamente a las secuencias de caracteres, lo que provocará una falta de coincidencia entre el espacio de vocabulario y el tamaño del modelo. Para evitar esta situación, el autor propone una estrategia para evitar la fusión entre categorías de caracteres, de modo que BPE pueda procesar mejor las secuencias de caracteres, mejorando así el rendimiento del modelo de lenguaje. Esta representación de entrada combina las ventajas empíricas de LM (capacidad de representación fuerte) a nivel de palabra y la generalidad a nivel de carácter, lo que hace posible evaluar modelos de lenguaje en cualquier conjunto de datos sin preprocesar los datos.

2.3 Modelo

El modelo se basa en parte en Transformador, la normalización de capa se mueve a la entrada de cada subbloque (antes de la salida), similar a la red residual de preactivación. Además, se agrega una capa adicional de normalización después del último bloque de autoatención. Escale los pesos de la capa residual a $1/\sqrt{N} en la inicialización$ , el vocabulario se expandió a 50257.

3. Experimentos

El autor realizó experimentos bajo el modelo de las cuatro configuraciones anteriores, y los dos primeros parámetros se compararon con GPT y BERT respectivamente.

3.1 Modelado del lenguaje

Como primer paso hacia el aprendizaje de disparo cero, los autores quieren comprender cómo el modelo aprende las capacidades de disparo cero en el modelado de lenguaje previamente entrenado. Muchos conjuntos de datos deben probarse fuera de distribución, y los modelos deben predecir texto altamente normalizado, como puntuación, sangría e incluso palabras invisibles.

Los resultados se muestran en la tabla anterior. Al usar el método del autor, la perplejidad se ha mejorado en 2.5-5, lo que indica que el uso de BPE puede mejorar efectivamente el rendimiento del modelo de lenguaje.
WebText LM se transfiere bien entre dominios y conjuntos de datos, mejorando el estado del arte en 7 de 8 conjuntos de datos en la configuración de disparo cero. Entre ellos, se logra una gran mejora en el conjunto de datos LAMBADA con dependencias de texto de largo alcance, pero funciona mal en 1BW, la posible razón es que este conjunto de datos elimina todas las estructuras de texto de largo alcance.

3.2 Prueba de libro infantil

El conjunto de datos CBT está diseñado para examinar el rendimiento de los LM en diferentes categorías de palabras: entidades nombradas, sustantivos, verbos y preposiciones. CBT usa cloze como objetivo de prueba para probar la precisión de cloze. GPT-2 logró un 93,3 % de resultados en sustantivos comunes y un 89,1 % de resultados en NER, ambos más altos que SOTA.

3.3 LAMBADA

Para probar la capacidad del modelo para lidiar con dependencias de largo alcance, el autor realizó experimentos en LAMBADA, aumentando la perplejidad de 99,8 a 8,6 y aumentando la precisión del 19% al 52,66%. El error de análisis muestra que la mayoría de las predicciones son válidas. secuencias, pero no finalización efectiva, lo que indica la falta de restricciones adicionales, después de agregar palabras vacías adicionales, la tasa de precisión se mejora aún más al 63,24%.

3.4 Desafío del esquema de Winograd

Winograd Schema Challenge tiene como objetivo medir la capacidad de un sistema para realizar un razonamiento de sentido común midiendo su capacidad para resolver ambigüedades en el texto.

Los resultados se muestran en la figura anterior, GPT-2 mejoró la precisión de última generación en un 7 %.

3.5 Comprensión de lectura

CoQA sobre documentos de 7 dominios diferentes, con un diálogo entre el interrogador y el interrogador sobre los documentos. Este conjunto de datos prueba la comprensión de lectura del modelo y la capacidad de confiar en el diálogo histórico. El experimento basado en GPT-2 que carece de pares de preguntas y respuestas logra una puntuación F1 de 55, mientras que el sistema supervisado basado en BERT logra una puntuación F1 de 89 casi humana. Si bien el efecto de tiro cero de GPT-2 es asombroso, las respuestas a menudo usan heurísticas simples.

3.6 Resumen

Para inducir a GPT-2 a realizar la tarea de resumen, agregue el texto "TL;DR" después del artículo, use el muestreo aleatorio Top-k para generar etiquetas de 100 palabras para reducir la repetición, y el autor usa las primeras tres oraciones generadas por estas 100 palabras como resumen. Parte de los resultados se muestran en el Apéndice Tabla 14. La tabla anterior son los resultados de la comparación experimental. Aunque el rendimiento de GPT-2 no es alto, se puede encontrar que después de agregar un indicador especial, el rendimiento del modelo ha aumentado en 6.4, que muestra que el modelo de lenguaje puede pasar el lenguaje natural para invocar un comportamiento específico de la tarea.

3.7 Traducción

GPT-2 tuvo un rendimiento inferior en la tarea de traducción, pero aun así superó la línea de base de 2017, incluso con la capacitación previa que excluyó el contenido que no está en inglés.

3.8 Respuesta a preguntas

El autor evalúa conjuntos de datos de comprensión de lectura como SQUAD y encuentra que a medida que aumenta el tamaño del modelo, el rendimiento de GPT-2 ha mejorado significativamente, aunque todavía hay una brecha, lo que muestra que la capacidad del modelo es, con mucho, la mejor. sistema neuronal más grande en tales tareas Un factor importante en el bajo rendimiento. La tabla anterior es un resultado generado parcial.

4. Generalización vs Memorización

Las últimas investigaciones muestran que en muchos conjuntos de datos, se repetirá parte del contenido de capacitación y de prueba, lo que conduce a la fuga de conocimiento. WebText también puede tener un fenómeno similar, por lo que también es muy importante analizar cuántos conjuntos de datos de prueba aparecen en el conjunto de entrenamiento.
Para investigar este problema, los autores crearon filtros Bloom que contenían 8 gramos de tokens de conjuntos de entrenamiento de WebText. Estos filtros Bloom permiten a los autores calcular la probabilidad de aparecer en WebText dado un conjunto de datos. Los resultados se muestran en la siguiente tabla:

Se puede ver que los conjuntos de datos comunes se superponen con WebText en un 1-6 %. Sorprendentemente, muchos conjuntos de datos se superponen con sus propios conjuntos de entrenamiento, lo que es aún más sorprendente, alcanzando un promedio de 5,9 %. El autor también concluyó a través del análisis de algunos conjuntos de datos específicos que, aunque la superposición entre WebText y algunos conjuntos de datos proporcionará una ligera ayuda para los resultados, para la mayoría de los conjuntos de datos, la tasa de superposición de su conjunto de entrenamiento y de prueba es mayor.
Comprender y cuantificar el impacto de un texto muy similar en el rendimiento es un problema de investigación importante. La siguiente figura muestra el rendimiento del conjunto de entrenamiento y el conjunto de prueba de WebText:

Ambos funcionan de manera similar y aumentan con el tamaño del modelo. Esto muestra que GPT-2 todavía tiene margen de mejora en el conjunto de datos de WebText, es decir, al aumentar el tamaño del modelo o adoptar otras estrategias de optimización, el rendimiento del modelo puede mejorar aún más.

5. Trabajo relacionado

levemente.

6. Discusión

Se ha dedicado mucha investigación al aprendizaje y la comprensión de los paradigmas del aprendizaje supervisado y no supervisado. Nuestros resultados sugieren que el aprendizaje no supervisado es un área de investigación prometedora, y este hallazgo ayuda a explicar los resultados de los modelos de lenguaje preentrenado aplicados a tareas posteriores. Aunque el nivel de muestra cero de GPT-2 está lejos del nivel utilizable, el autor descubrió que cuando el modelo aumenta aún más, será mejor que la línea de base común hasta cierto punto. Los futuros autores explorarán más a fondo el límite superior del ajuste fino.

leer resumen

GPT-2, como arma principal de OpenAI para disipar la arrogancia de BERT, obviamente no es suficiente a partir de los resultados experimentales, pero como vínculo entre el pasado y el futuro, GPT-2 es una parte indispensable de la familia GPT. En mi opinión, si no hay GPT, no habrá BERT, y si no hay GPT-2, no habrá gloria en la era de los modelos grandes. En esencia, GPT-2 es una continuación simple de GPT. Vio que BERT usó un conjunto de datos más grande para el entrenamiento previo, por lo que también usó un conjunto de datos más grande. Al ver que el modelo BERT es muy grande, simplemente se cambió a Este es un gran problema, quizás debido a la doble bendición de la suerte y la fuerza, el equipo GPT-2 hizo los siguientes descubrimientos:

Inmediato. Algunas personas definitivamente cuestionarán que el indicador debería haber comenzado desde GPT-3. De hecho, GPT-2 también usó el indicador. El equipo de OpenAI obviamente no quiere competir con BERT en una sola pista (no es necesario, y el rendimiento no es mucho mejor que otros), por lo que cambia directamente su atención a la escena de muestra cero, pero falta de pasos de ajuste fino en la escena de muestra cero. Ante diferentes problemas, no se pueden usar tokens especiales, por lo que el autor usa lenguaje natural para expresar el problema, eliminando así los tokens especiales que no se han visto. Esta forma se puede entender como un aviso en esencia, y es precisamente por esto. El descubrimiento inesperado hizo que el equipo de OpenAI continuara profundizando sobre esta base.
Conjuntos de datos de rendimiento y pre-entrenamiento. También a través de experimentos, el autor descubrió que a medida que aumenta el tamaño del modelo, el entrenamiento previo en el conjunto de datos, el conjunto de entrenamiento y el conjunto de prueba aún se pueden mejorar sincrónicamente, lo que muestra que el conjunto de datos de WebText tiene el potencial para una mayor minería. , o en otras palabras, cuanto mayor sea el tamaño del modelo y luego coincida con el conjunto de datos de la escala correspondiente, el rendimiento del modelo mejorará constantemente.

Este artículo también tiene algo de inspiración para los escritores de tesis:

Aprende a pensar en los problemas desde otro ángulo. Frente a los modelos de la misma pista, descubrí que mi propio modelo no tiene ninguna ventaja en la misma configuración. Puedo encontrar una manera de discutir su versatilidad desde una perspectiva más general. El diseño debe ser más grande.
Incluso si algunos de los resultados experimentales no son buenos, debemos analizar cuidadosamente las razones y podemos descubrir los defectos y algunas ventajas potenciales del modelo, sentando las bases para el trabajo futuro.
Si hace un alboroto sobre la base del trabajo anterior y la arquitectura del modelo no ha cambiado significativamente, debe encontrar la manera de hacer un alboroto sobre algunos detalles.Por ejemplo, el artículo analiza en detalle la construcción del conjunto de datos, la construcción del vocabulario, el análisis de similitud del conjunto de datos y Soluciones, para que el trabajo ya no sea monótono.

[Lectura intensiva de artículos clásicos de PNL] Los modelos de lenguaje son aprendices multitarea sin supervisión