[Lectura intensiva de artículos clásicos de PNL] Los modelos de lenguaje son aprendices de pocas oportunidades

prefacio

El informe técnico de GPT-3, en mi opinión, abrió la puerta a la era de los modelos a gran escala. Aunque el rendimiento de GPT-3 es casi incomparable con los modelos a gran escala actuales, parecía en ese momento que un general omnipotente -propósito modelo podría Ha jugado un cierto papel en el mundo real, lo que ha entusiasmado a muchos trabajadores. El llamado ir de 0 a 1 es más difícil que pasar de 1 a 100. Esta es la verdad. Si no hay GPT -3 trabajo, la era de los modelos grandes aún puede ser Tarda más en llegar.


Documento: https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
Código: https://github.com/openai/gpt-3

Abstracto

Trabajos recientes han demostrado que los paradigmas pre-entrenados y ajustados pueden lograr grandes resultados en muchas tareas de PNL. Sin embargo, el proceso de ajuste aún requiere miles de datos, por lo tanto, este documento muestra que al expandir la escala del modelo, la capacidad de muestra pequeña del modelo se puede mejorar en gran medida. Específicamente, el autor diseñó un modelo grande GPT-3 con 175 mil millones de parámetros, que puede manejar tareas de dominio específicas sin modificar los parámetros. GPT-3 ha demostrado un excelente rendimiento de pocos disparos en muchas tareas e incluso puede generar artículos que son indistinguibles para los humanos.

1. Introducción

En los últimos años, el campo de la PNL ha mostrado una tendencia de pre-entrenamiento, y con la aparición de Transformer, se ha eliminado la necesidad de una arquitectura de tareas específicas. Pero este enfoque requiere conjuntos de datos específicos de la tarea para el ajuste fino, y es necesario eliminar esta limitación:

  1. Cada tarea requiere una gran cantidad de datos etiquetados, lo que limita la aplicabilidad de los modelos de lenguaje y el costo de etiquetado también es alto.
  2. El modelo es demasiado grande y ajustado en una tarea limitada, lo que da como resultado un rendimiento de generalización deficiente.
  3. Los humanos no necesitan una gran cantidad de datos supervisados ​​para aprender varias tareas del idioma y pueden cambiar sin problemas entre muchas tareas.

Una solución potencial es el metaaprendizaje, que desarrolla un amplio conjunto de habilidades y capacidades de reconocimiento de patrones durante el entrenamiento y luego aprovecha estas capacidades durante la inferencia para generalizar rápidamente a tareas posteriores. Este método, también conocido como "aprendizaje contextual", guía al modelo para generar resultados a través de instrucciones en lenguaje natural y algunos ejemplos. Pero la parte experimental no es satisfactoria y necesita mejoras adicionales.
imagen.png
En los últimos años, al aumentar el tamaño del modelo de lenguaje, se ha encontrado que cada aumento ha mejorado las tareas posteriores, y el autor analiza que pueden ocurrir beneficios similares en el aprendizaje contextual.
Por lo tanto, este artículo diseña un modelo GPT-3 con 175 mil millones de parámetros y evalúa el modelo en más de 20 tareas de PNL.Se establecen tres escenarios para cada tarea:

  1. Pequeña muestra de aprendizaje. Limite el número de demostraciones a 10-100.
  2. aprendizaje de una sola vez. Solo se aplica una muestra de demostración.
  3. Aprendizaje de tiro cero. No se agregan muestras de demostración, solo se proporcionan instrucciones en lenguaje natural.

imagen.png
La figura anterior muestra que al agregar descripciones en lenguaje natural y ejemplos contextuales, se mejora el rendimiento del modelo, y el aprendizaje de pocas tomas también mejora significativamente a medida que aumenta el tamaño del modelo. Vale la pena señalar que ninguna de estas curvas implica actualizaciones de parámetros del modelo.
En general, GPT-3 logra buenos resultados tanto en configuraciones de disparo cero como de disparo único, e incluso supera el estado del arte para algunas tareas en la configuración de disparo pequeño. GPT-3 también exhibe capacidades de aprendizaje de pocas tomas similares a las de los estudiantes humanos, y los autores muestran que en la configuración de pocas tomas, GPT-3 puede generar artículos que son difíciles de reconocer para los humanos.
GPT-3 tiene problemas incluso con configuraciones de muestra pequeñas en algunas tareas de inferencia y comprensión de lectura. La siguiente figura muestra los resultados de GPT-3 en varias tareas: El autor también realizó una investigación sobre la contaminación de datos, es decir, el conjunto de prueba puede aparecer en el
imagen.png
concentración de entrenamiento, lo que resulta en la fuga de datos. Los autores encontraron que, si bien la contaminación de datos tuvo poco efecto en el rendimiento de GPT-3, algunos conjuntos de datos aún exageraron los resultados.
Además, el autor también entrenó una serie de modelos más pequeños (de 125 millones a 13 mil millones) para compararlos con el rendimiento de GPT-3. En general, el rendimiento del modelo crece sin problemas a medida que aumenta el tamaño del modelo, y los autores encuentran que la brecha entre los modelos en las tres configuraciones aumenta con el tamaño del modelo, lo que sugiere que los modelos más grandes son mejores para el meta-aprendizaje.

2. Enfoque

El modelo y el método siguen utilizando GPT-2, pero se amplía la escala del modelo. En el corazón de este documento se encuentra la exploración sistemática de diferentes escenarios en el aprendizaje contextual.

  • sintonia FINA. El efecto es bueno, pero se basa en una gran cantidad de conjuntos de datos supervisados ​​y tiene poca capacidad de generalización.
  • pequeña muestra. Reduce en gran medida la dependencia de los datos de supervisión específicos de la tarea, el rendimiento es mucho peor que el ajuste fino (excepto en nuestro modelo).
  • un trago. Solo se permite una pequeña muestra de una demostración.
  • Cero muestras. Usar solo instrucciones en lenguaje natural que describan la tarea, independientemente de cualquier demostración, es el entorno más desafiante.

imagen.png
Este artículo se centra en las últimas tres configuraciones, especialmente en el escenario de muestra pequeña, porque su rendimiento puede incluso superar a SOTA. Por supuesto, las configuraciones de muestra cero y one-shot son las comparaciones más justas con el rendimiento humano.

2.1 Modelo y Arquitecturas

El modelo adopta la misma arquitectura y método que GPT-2, la diferencia es que en Transformer se utiliza un mecanismo similar al Sparse Transformer. El trabajo anterior ha demostrado que, con suficientes datos de entrenamiento, la pérdida de validación exhibe una variación suave de la ley de potencia a medida que el modelo crece. imagen.png
La tabla de arriba muestra 8 modelos de diferentes escalas. El autor realiza el entrenamiento multi-GPU a través de la segmentación multidimensional del modelo.

2.2 Conjunto de datos de entrenamiento

El conjunto de datos de Common Crawl contiene tokens de nivel T, que es suficiente para entrenar el modelo en este documento, pero la calidad de los datos debe mejorarse aún más:

  1. En primer lugar, la primera ronda de filtrado se realiza según la similitud de los datos de alta calidad.
  2. Realice una deduplicación aproximada a nivel de documento para evitar la redundancia de datos.
  3. Agregue corpus de alta calidad a la combinación de capacitación para mejorar la diversidad del conjunto de datos.

imagen.png
La tabla anterior es la composición del conjunto de datos de entrenamiento final. Durante el período de entrenamiento, el conjunto de datos no se muestrea de acuerdo con la proporción de tamaño, sino de acuerdo con la proporción establecida. El propósito es mejorar la calidad del conjunto de datos de entrenamiento.
Un problema con el entrenamiento previo del modelo de lenguaje es que los datos del conjunto de prueba pueden aparecer en el conjunto de entrenamiento, causando fugas de conocimiento y contaminando las tareas posteriores. Aunque los autores tratan de eliminar la superposición de datos, aún existe el problema de la fuga de datos, que necesita más exploración.

2.3 Proceso de formación

Los modelos más grandes suelen utilizar tamaños de lote más grandes y tasas de aprendizaje más pequeñas. Los autores miden la relación gradiente-ruido durante el entrenamiento y eligen el tamaño del lote en función de esta relación. La Tabla 2.1 muestra la selección del tamaño del lote y la tasa de aprendizaje para diferentes modelos.

2.4 Evaluación

Para cada tarea posterior, muestree KK de su conjunto de entrenamientoLas muestras K se usan como condiciones, y Prompt usa "Respuesta" o "A". Si es una clasificación binaria, la respuesta será "Verdadero" o "Falso", no 0 y 1, porque la probabilidad de que aparezcan 0 y 1 durante el entrenamiento no es tan alta como "Verdadero" y "Falso"; si es una tarea de respuesta a una pregunta, use la búsqueda de haz para evaluar el modelo usando el puntaje de similitud F1, BLEU o coincidencia exacta.

3. Resultados

imagen.png
La figura anterior muestra las curvas de entrenamiento de los modelos 8. Se puede ver que el rendimiento de los modelos sigue una ley de potencia, es decir, a medida que la cantidad de cálculo aumenta exponencialmente, la pérdida disminuye linealmente.

3.1 Tareas de modelado, cierre y finalización del lenguaje

imagen.png
Como se muestra en la figura anterior, en las tareas de cierre y finalización, GPT-3 mejora significativamente el SOTA en el campo de cero disparos, y el rendimiento en la configuración de pocos disparos está cerca del rendimiento humano.
imagen.png
Los resultados de la tarea abierta de preguntas y respuestas se muestran en la tabla anterior. Se puede ver que GPT-3 es más alto que los resultados del ajuste fino del modelo T5 en las tres configuraciones de escena.

3.2 Respuesta a preguntas de libro cerrado

Los modelos de lenguaje a gran escala pueden responder preguntas directamente sin información auxiliar (es decir, no se requiere recuperación de información). Los resultados se muestran en la siguiente figura:
imagen.png
El rendimiento de GPT-3 aumenta constantemente con el tamaño del modelo, lo que muestra que el modelo de lenguaje continúa absorbiendo conocimiento a medida que aumenta la capacidad. La configuración de muestra pequeña supera el estado del arte para el ajuste fino.

3.3 Traducción

GPT-3 amplía el alcance del conjunto de datos de entrenamiento sobre la base de GPT-2 para incluir más representaciones de otros idiomas.
imagen.png
Todos los conjuntos de datos muestran una tendencia de mejora consistente a medida que aumenta el tamaño del modelo, y la tendencia es más fuerte para la traducción al inglés que para la traducción al inglés.

El autor ha trabajado mucho en el tercer capítulo para verificar el rendimiento de GPT-3 en varios campos de la PNL mediante la realización de experimentos en diferentes tareas. Debido a limitaciones de espacio, los resultados no se mostrarán aquí uno por uno, y solo se toman algunos de los experimentos como ejemplos. En general, bajo estas tres configuraciones, el rendimiento de muestras pequeñas es sin duda el mejor, y en algunos datos Incluso supera el ajuste fino de SOTA en el set, pero aún tiene una brecha con el desempeño humano.

4. Medición y prevención de la memorización de puntos de referencia

El problema de contaminación de datos de la tarea del autor es particularmente importante para el entrenamiento de modelos grandes, porque implica si la capacidad del modelo se aprende o se imita. Se realizó un trabajo relacionado en GPT-2 y se encontró que, aunque el modelo funcionó mejor en los datos que se superpusieron entre el entrenamiento y la prueba, esto no afectó significativamente los resultados informados porque la proporción de datos contaminados fue pequeña. Sin embargo, el mecanismo de funcionamiento de GPT-3 es ligeramente diferente. En primer lugar, la escala de datos no es un orden de magnitud y la calidad del conjunto de datos de rastreo común utilizado no es buena, lo que aumenta la posibilidad de contaminación. Por otro lado, debido a la gran cantidad de datos, es difícil que el modelo se sobreajuste (como se muestra en la figura a continuación), por lo que la contaminación puede ocurrir con frecuencia.
imagen.png
La búsqueda activa de superposiciones es costosa, por lo que los autores investigan cómo estas superposiciones afectan los resultados. Para cada conjunto de datos de referencia, los autores limpian y evalúan estos conjuntos de datos, comparándolos con las puntuaciones originales. Los resultados son los siguientes:
imagen.png
aunque la contaminación potencial es alta, el cambio resultante en el rendimiento es insignificante. Hay dos razones posibles para esto, una es que el autor sobrestimó en gran medida la proporción de contaminación y la otra es que la contaminación tiene poco efecto sobre el rendimiento.

5. Limitaciones

GPT-3 todavía tiene muchas limitaciones.

  1. Todavía existen deficiencias en la generación de texto, como repetición semántica, inconsistencia, etc.
  2. Hay limitaciones en la estructura y el algoritmo.La arquitectura autorregresiva no contiene otros objetivos previos al entrenamiento, por lo que tareas como cloze y comprensión de lectura no son tan buenas como BERT.
  3. Vulnerable a verse limitado por el objetivo de pre-entrenamiento. Es decir, asignar el mismo peso a cualquier token sin "centrarse" en sí mismo y sin conocimiento multimodal.
  4. La eficiencia de la muestra previa al entrenamiento es pobre. No se puede lograr una eficiencia de aprendizaje cercana a la de los seres humanos.
  5. En el escenario de muestra pequeña, es imposible saber si el modelo vuelve a aprender la tarea o simplemente reconoce el conocimiento aprendido durante el entrenamiento previo.
  6. GPT-3 es costoso, inconveniente para el razonamiento y carece de practicidad.Se pueden considerar métodos de destilación de conocimiento.
  7. Falta de explicación. Incluya qué pesos juegan un papel decisivo en el proceso de generación.

6. Impactos más amplios

El modelo lingüístico es poderoso e inevitablemente tendrá un impacto en la sociedad.Este capítulo se centra en el daño potencial del modelo lingüístico para prevenir problemas antes de que sucedan.

6.1 Mal uso de los modelos de lenguaje

Los modelos de lenguaje se usan fácilmente de forma maliciosa, como generar spam, información de phishing, noticias falsas, etc. Debido a la alta calidad del texto generado, es difícil que los humanos los distingan. Además, los modelos de lenguaje reducen el umbral para organizaciones maliciosas, lo que aumenta el riesgo de ataques maliciosos, y los modelos de lenguaje pueden explotarse con fines de lucro.

6.2 Imparcialidad, parcialidad y representación

Los sesgos en los datos de entrenamiento pueden hacer que el modelo genere contenido estereotipado o sesgado. Esto refuerza los estereotipos y otros daños potenciales que existen en la realidad. Estos sesgos incluyen género, raza, religión, etc.
Por ejemplo, en términos de género, el autor probó 388 ocupaciones y descubrió que el 83 % de las ocupaciones tienen más probabilidades de estar marcadas como hombres por GPT-3.
imagen.png
La tabla anterior describe palabras para hombres y mujeres. Se puede ver que las mujeres se describen más como "hermosas". Aunque este es un término elogioso, también es un prejuicio en cierto sentido.
imagen.png
El sesgo contra la raza es más evidente, se puede observar que bajo los modelos de diferentes tallas, los negros casi siempre son valorados negativamente, mientras que los asiáticos son valorados positivamente.
imagen.png
También hay diferentes prejuicios en diferentes religiones. De acuerdo con la tabla anterior, podemos ver que la Iglesia Islámica involucra violencia, terrorismo y otras palabras relacionadas.
Por lo tanto, el trabajo futuro debe establecer un vocabulario relacionado y normas de diseño para mitigar las desviaciones.

6.3 Uso de energía

El entrenamiento de modelos de lenguaje a gran escala requiere muchos cálculos, lo que requiere un compromiso entre costo y eficiencia. Por ejemplo, la destilación de conocimientos se puede utilizar para reducir costos.

7. Trabajo relacionado

levemente.

8. Conclusión

Este documento propone un modelo de lenguaje con 175 mil millones de parámetros, que muestra un sólido rendimiento en múltiples tareas de PNL en entornos de muestra cero, muestra única y pocas muestras. Además, los autores discuten el impacto social de tales modelos y, a pesar de sus muchas limitaciones y fallas, múltiples resultados muestran que los modelos de lenguaje a gran escala son una parte importante de los sistemas de lenguaje de propósito general.

leer resumen

Un informe técnico de 75 páginas, pero la mayor parte del trabajo y el énfasis se colocan en la parte experimental, y la parte del método solo se menciona de pasada. Si no hay experiencia de lectura relacionada con GPT-2, es difícil entender el enfoque. del trabajo de GPT-3. A diferencia de la configuración de muestra cero de GPT-2, GPT-3 centró su atención en la configuración de muestra pequeña, porque aunque GPT-2 proponía un escenario de problema muy novedoso y general, el efecto no fue satisfactorio. El autor continuó usando GPT- 2 El método de usar lenguaje natural para ajustar la salida sin actualizar el gradiente incluso supera el ajuste fino de SOTA en algunos campos bajo la configuración de muestra pequeña, lo que prueba que los modelos de lenguaje a gran escala son una parte importante de los sistemas de lenguaje general.
En general, el núcleo de todo el trabajo radica en dos lugares, el primero es la construcción y selección del conjunto de datos, y el segundo es la construcción del modelo, no hay contenido innovador en estos, por lo que el autor pone mucho de experiencia en la parte experimental, los llamados Milagros se han hecho vigorosamente. A través de una gran cantidad de análisis experimentales, el rendimiento del modelo se ha demostrado de manera más completa, y también se ha verificado la racionalidad de algunas ideas en GPT-2 en cierta medida, abriendo así la puerta a la era de las grandes maquetas.
Para los escritores, la mayor ganancia radica en aprender cómo diseñar experimentos de manera más integral y cómo justificarse a sí mismos a través de experimentos. La llamada práctica aporta conocimiento verdadero. Un artículo completo no solo tiene historias maravillosas, sino que también tiene resultados experimentales convincentes.
Finalmente, GPT-3 tiene 175 mil millones de parámetros, que no pueden ser digeridos por individuos o incluso por un pequeño equipo en términos de tiempo y poder de cómputo. Por lo tanto, se lleva a cabo el trabajo actual de aprendizaje de efectividad de parámetros y destilación de conocimiento.

Supongo que te gusta

Origin blog.csdn.net/HERODING23/article/details/132078698
Recomendado
Clasificación