(GPT3) Los modelos de lenguaje son aprendices de pocas oportunidades Lectura en papel

Dirección en papel: https://arxiv.org/pdf/2005.14165v4.pdf

Resumen


        El trabajo reciente ha demostrado un progreso sustancial en muchas tareas y puntos de referencia de NLP mediante el entrenamiento previo en grandes corpus de texto y luego el ajuste en tareas específicas . Aunque generalmente la arquitectura es independiente de las tareas, este enfoque aún requiere conjuntos de datos de ajuste fino específicos de tareas que contienen miles o decenas de miles de ejemplos. Por el contrario, los humanos a menudo pueden realizar una nueva tarea de lenguaje con solo unos pocos ejemplos o instrucciones simples , algo que los sistemas actuales de PNL todavía tienen dificultades para hacer. Aquí mostramos que el aumento de los modelos de lenguaje mejora drásticamente el rendimiento independiente de la tarea y con pocos disparos, a veces incluso compitiendo con los métodos de ajuste fino anteriores . Específicamente, entrenamos GPT-3, un modelo de lenguaje autorregresivo con 175 mil millones de parámetros, 10 veces más que cualquier modelo de lenguaje no disperso anterior , y entrenamos en muestras múltiples (configuración de pocos disparos) para probar su rendimiento. Para todas las tareas, GPT-3 se aplica sin actualizaciones de gradiente ni ajustes finos, y las tareas y demostraciones de pocos disparos se especifican completamente a través de interacciones textuales con el modelo . GPT-3 logra un rendimiento sólido en muchos conjuntos de datos de NLP, incluidas tareas de traducción, respuesta a preguntas y cloze, y algunas tareas que requieren razonamiento inmediato o adaptación de dominio, como descifrar palabras, en oraciones o realizar aritmética de 3 dígitos. Al mismo tiempo, también identificamos algunos conjuntos de datos en los que el aprendizaje de disparos múltiples para GPT-3 sigue siendo difícil, y algunos conjuntos de datos en los que GPT-3 enfrenta problemas metodológicos asociados con el entrenamiento en corpus web grandes. Finalmente, mostramos que GPT-3 puede generar muestras de artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos. Discutimos este hallazgo y las implicaciones sociales más amplias de GPT-3 en general.

1. Introducción

        En los últimos años, ha habido una tendencia en los sistemas de PNL a entrenar previamente las representaciones del lenguaje en los sistemas de PNL para la transferencia posterior de una manera cada vez más flexible e independiente de la tarea. Primero, se aprende una representación de una sola capa utilizando incrustaciones de palabras y se alimenta a una arquitectura específica de la tarea, luego se usa un RNN con múltiples capas de representación y estado contextual para formar una representación más sólida (aunque aún adecuada para una arquitectura específica de la tarea) , predicción reciente Los modelos de lenguaje de transformadores o recurrentes capacitados se han ajustado directamente, eliminando por completo la necesidad de arquitecturas específicas de tareas.
        El último paradigma ha logrado un progreso sustancial en muchas tareas desafiantes de PNL, como la comprensión de lectura, la respuesta a preguntas, la vinculación textual, etc., y continúa progresando sobre la base de nuevas arquitecturas y algoritmos. Sin embargo, una limitación importante de este enfoque es que, aunque la arquitectura es independiente de la tarea , aún requiere conjuntos de datos específicos de la tarea y un ajuste fino específico de la tarea: lograr un rendimiento sólido en una tarea deseada a menudo requiere un ajuste fino de conjuntos de datos de miles a cientos. de miles de ejemplos. La eliminación de esta restricción es deseable por varias razones .
        Primero, desde un punto de vista práctico, cada nueva tarea requiere un gran conjunto de datos de ejemplos etiquetados, lo que limita la aplicabilidad de los modelos de lenguaje . Existe una gama muy amplia de tareas lingüísticas potencialmente útiles, que van desde la corrección de la gramática hasta la generación de ejemplos de conceptos abstractos y la revisión de cuentos. Para muchas de estas tareas, es difícil recopilar grandes conjuntos de datos de entrenamiento supervisados, especialmente cuando el proceso debe repetirse para cada nueva tarea.
        En segundo lugar, a medida que se reducen la expresividad del modelo y la distribución de entrenamiento, aumenta fundamentalmente el potencial para explotar correlaciones espurias en los datos de entrenamiento . Esto puede plantear un problema para el paradigma de preentrenamiento más ajuste fino, donde los modelos están diseñados para ser grandes para absorber información durante el preentrenamiento, pero luego se ajustan en una distribución muy estrecha de tareas . Por ejemplo, observe que los modelos más grandes no necesariamente se generalizan a mejores distribuciones. Hay evidencia de que la generalización lograda bajo este paradigma puede ser pobre,Porque el modelo es demasiado específico para la distribución del entrenamiento y no se generaliza bien fuera de ella . Por lo tanto, el desempeño de un modelo ajustado en un punto de referencia particular, incluso si es nominalmente a nivel humano, puede exagerar el desempeño real de la tarea subyacente.

        En tercer lugar, los humanos no necesitan grandes conjuntos de datos supervisados ​​para aprender la mayoría de las tareas lingüísticas : instrucciones breves en lenguaje natural (como "dime si esta oración describe felicidad o tristeza" ) o, como máximo, una pequeña cantidad de ejemplos ( demostraciones ) (como "Aquí hay dos ejemplos de personas que actuaron con valentía; dé un tercer ejemplo de valentía") suele ser suficiente para que una persona realice una nueva tarea con al menos una habilidad razonable. Además de señalar las limitaciones conceptuales de nuestras técnicas actuales de PNL, esta adaptabilidad tiene ventajas prácticas: permite a los humanos combinar sin problemas o cambiar entre muchas tareas y habilidades, como realizar sumas en conversaciones largas. Para un uso generalizado, esperamos algún día tener la misma fluidez y generalidad de nuestros sistemas NLP.

Figura 1.1: Metaaprendizaje del modelo de lenguaje. Durante el entrenamiento previo sin supervisión, los modelos de lenguaje desarrollan una amplia gama de habilidades y capacidades de reconocimiento de patrones. Luego utiliza estas capacidades en el momento de la inferencia para adaptar o identificar rápidamente las tareas deseadas. Usamos el término "aprendizaje en contexto" para describir el ciclo interno de este proceso, que ocurre en el paso hacia adelante de cada secuencia. Las secuencias de esta figura no pretenden representar los datos que el modelo verá durante el entrenamiento previo, sino mostrar que, a veces, las subtareas repetidas están integradas en una sola secuencia.


        Una vía potencial para abordar estos problemas es el metaaprendizaje: en el contexto de los modelos de lenguaje, esto significa que el modelo desarrolla una amplia gama de habilidades y capacidades de reconocimiento de patrones en el momento del entrenamiento, y luego usa estas capacidades en el momento de la inferencia para adaptarse o adaptarse rápidamente. identificar las tareas requeridas (como se muestra en la Figura 1.1). Trabajos recientes intentan hacer esto a través de lo que llamamos "aprendizaje contextual", utilizando la entrada de texto a un modelo de lenguaje previamente entrenado como una forma de especificación de tareas : el modelo toma instrucciones en lenguaje natural y/o ejemplos de algunas tareas, y luego solo Más instancias de la tarea se puede completar prediciendo lo que sucederá a continuación.
        Si bien ha mostrado cierta promesa inicial, el método aún logra resultados mucho menos ajustados, por ejemplo, solo el 4% en preguntas naturales, e incluso su resultado 55 F1 CoQa ahora está 35 puntos por detrás del más avanzado de los anteriores. Claramente, el metaaprendizaje necesita muchas mejoras antes de que pueda convertirse en un método práctico para resolver tareas de lenguaje.
        Otra tendencia reciente en el modelado del lenguaje puede ofrecer un camino a seguir. En los últimos años, la capacidad del modelo de lenguaje Transformer ha aumentado significativamente, de 100 millones de parámetros [RNSS18], 300 millones de parámetros [DCLT18], 1500 millones de parámetros [RWC+19], 8000 millones de parámetros [SPP+19], 11000 millones parámetros mil millones de parámetros [RSR+19] y finalmente 17 mil millones de parámetros [Tur20]. Cada aumento trae mejoras en la síntesis de texto y/o las tareas posteriores de NLP, y hay evidencia de que la pérdida de registro, que está estrechamente relacionada con muchas tareas posteriores, sigue una tendencia de mejora suave con la escala [KMH+20]. Dado que el aprendizaje en contexto implica la asimilación de muchas habilidades y tareas dentro de los parámetros del modelo, es probable que las capacidades de aprendizaje en contexto muestren un aumento igualmente fuerte con la escala.

        En este artículo, probamos esta hipótesis entrenando un modelo de lenguaje autorregresivo de 175 mil millones de parámetros (al que llamamos GPT-3) y midiendo su capacidad de aprendizaje contextual . Específicamente, evaluamos GPT-3 en más de 20 conjuntos de datos de NLP, así como en varias tareas nuevas diseñadas para probar la rápida adaptación a tareas que es poco probable que estén directamente contenidas en el conjunto de entrenamiento. Para cada tarea, evaluamos GPT-3 bajo 3 condiciones: (a) "aprendizaje de pocos disparos" o aprendizaje contextual, donde permitimos que la mayor cantidad posible de ejemplos quepan dentro de la ventana de contexto del modelo (típicamente de 10 a 100), ( b) "aprendizaje de una sola vez", en el que solo permitimos un ejemplo, y (c) aprendizaje "de una sola vez", en el que no se permiten ejemplos y el modelo recibe solo una instrucción en lenguaje natural. En principio, GPT-3 también puede evaluarse en la configuración de ajuste fino tradicional, pero dejamos esto para trabajos futuros.

Figura 1.2: Cuanto más grande es el modelo, más eficientemente se usa la información contextual. Demostramos el rendimiento del aprendizaje contextual en una tarea simple que requiere que el modelo elimine símbolos aleatorios de las palabras, con o sin descripciones de tareas en lenguaje natural (consulte la Sección 3.9.2). Una "curva de aprendizaje contextual" más pronunciada para modelos grandes indica una capacidad mejorada para aprender tareas a partir de información contextual. Vemos un comportamiento cualitativamente similar en una amplia gama de tareas


        La Figura 1.2 ilustra las condiciones de nuestro estudio y muestra el aprendizaje de una tarea simple que requiere que el modelo elimine los símbolos superfluos de las palabras . El rendimiento del modelo se mejora agregando una descripción de la tarea en lenguaje natural y el número K de ejemplos en el contexto del modelo. El aprendizaje de pocos disparos también mejora significativamente con el tamaño del modelo. Aunque los resultados en este caso son particularmente convincentes, las tendencias generales en el tamaño del modelo y la cantidad de ejemplos en contexto se aplican a la mayoría de las tareas que estudiamos. Hacemos hincapié en que estas curvas de "aprendizaje" no implican actualizaciones de gradiente o ajustes, solo aumentan el número de demostraciones dadas como condición.
        En términos generales, en las tareas de NLP, GPT-3 logra resultados alentadores en configuraciones de disparo único y cero, y en la configuración de pocos disparos, a veces incluso rivalizando con el estado del arte, e incluso ocasionalmente supera al estado-del-arte. del arte (aunque el estado del arte es un modelo afinado). Por ejemplo, GPT-3 logra 81,5 F1 en CoQA en la configuración de disparo cero, 84,0 F1 en CoQA en la configuración de un disparo y 85,0 F1 en la configuración de pocos disparos. Del mismo modo, GPT-3 logra una precisión del 64,3 % en la configuración de disparo cero, del 68,0 % en la configuración de un disparo y del 71,2 % en la configuración de pocos disparos en TriviaQA, siendo el último el ajuste relativamente fino de última generación. El modelo sintonizado se ejecuta en la misma configuración de tiro cerrado.
        GPT-3 también demostró competencia de una o varias veces en tareas diseñadas para probar la adaptación rápida o el razonamiento justo a tiempo, lo que incluye descifrar palabras, realizar aritmética y usar palabras nuevas en oraciones después de verlas definidas solo una vez. También mostramos que en la configuración de pocas tomas, GPT-3 puede generar artículos de noticias sintéticos que son difíciles de distinguir para los evaluadores humanos de los artículos generados por humanos.
        Al mismo tiempo, también encontramos algunas tareas en las que el rendimiento de instancias múltiples tuvo problemas incluso a la escala de GPT-3. Esto incluye tareas de inferencia de lenguaje natural, como el conjunto de datos ANLI, y algunos conjuntos de datos de comprensión de lectura, como RACE o QuAC. Al proporcionar una descripción amplia de las fortalezas y debilidades de GPT-3, incluidas estas limitaciones, esperamos estimular la investigación sobre el aprendizaje (de instancias múltiples) en pocos intentos en modelos de lenguaje y llamar la atención sobre dónde se necesita más progreso.

Figura 1.3: Rendimiento combinado de los 42 puntos de referencia basados ​​en la precisión Mientras que el rendimiento de instancia cero mejora constantemente con el tamaño del modelo, el rendimiento de instancias múltiples aumenta más rápido, lo que sugiere que los modelos más grandes son mejores en el aprendizaje contextual. Consulte la Figura 3.8 para obtener un análisis más detallado de SuperGLUE, un conjunto estándar de referencia de NLP.


        La importancia heurística de los resultados generales se puede ver en la Figura 1.3, que agrega las diversas tareas (aunque no debe considerarse un punto de referencia estricto o significativo por sí mismo) 

        También llevamos a cabo un estudio sistemático de la "contaminación de datos", un problema creciente cuando se entrenan modelos de gran volumen en conjuntos de datos como Common Crawl, que pueden contener contenido del conjunto de datos de prueba, ya que a menudo se encuentran en la web. En este documento, desarrollamos herramientas sistemáticas para medir la contaminación de datos y cuantificar sus efectos distorsionadores. Aunque descubrimos que la contaminación de datos tuvo poco impacto en el rendimiento de GPT-3 en la mayoría de los conjuntos de datos, identificamos algunos conjuntos de datos en los que los resultados pueden estar inflados, y no informamos los resultados de estos conjuntos de datos o los marcamos con un asterisco, según sobre la severidad.
        Además de todo lo anterior, también entrenamos una serie de modelos más pequeños (desde 125 millones de parámetros hasta 13 mil millones de parámetros) para comparar su rendimiento con GPT-3 en las configuraciones de cero, un disparo y pocos disparos. En términos generales, para la mayoría de las tareas, encontramos que la escala de la capacidad del modelo es relativamente fluida en las tres configuraciones; un patrón notable es que la brecha entre el rendimiento de cero, uno y pocos disparos generalmente aumenta con la capacidad del modelo. aumentando, lo que puede indicar que los modelos más grandes son meta-aprendices más competentes.
        Finalmente, dadas las amplias capacidades exhibidas por GPT-3, discutimos las preocupaciones sobre el sesgo, la equidad y el impacto social más amplio, e intentamos caracterizar GPT-3 en este sentido inicialmente.
        El resto de este documento está organizado de la siguiente manera. En la Sección 2, describimos nuestro enfoque y metodología para entrenar GPT-3 y evaluarlo. La Sección 3 presenta los resultados de todas las tareas en las configuraciones de cero, uno y pocos disparos. La sección 4 aborda el problema de la contaminación de datos (superposición de prueba de tren). La sección 5 analiza las limitaciones de GPT-3. La Sección 6 discute implicaciones más amplias. La Sección 7 revisa el trabajo relacionado y la Sección 8 concluye.

2 métodos

        Nuestro enfoque básico de preentrenamiento, que incluye el modelo, los datos y el entrenamiento, es similar al proceso descrito en [RWC+19], con una escala relativamente sencilla del tamaño del modelo, el tamaño y la diversidad del conjunto de datos y la duración del entrenamiento. Nuestro uso del aprendizaje contextual también es similar a [RWC+19], pero en este trabajo exploramos sistemáticamente diferentes escenarios para el aprendizaje en contexto. Por lo tanto, comenzamos esta sección definiendo y contrastando claramente diferentes entornos en los que evaluaremos GPT-3, o en principio podemos evaluar GPT-3. Estas configuraciones se pueden ver como un rango dependiendo de la cantidad de datos específicos de la tarea en los que tienden a confiar. Específicamente, podemos identificar al menos cuatro puntos en este espectro (vea la ilustración de la Figura 2.1):

Figura 2.1: Cero, uno y pocos ejemplos, en comparación con el ajuste fino tradicional. El panel anterior muestra cuatro formas de realizar tareas utilizando modelos de lenguaje: el ajuste fino es el enfoque tradicional, mientras que cero, un disparo y unos pocos disparos que estudiamos en este trabajo requieren que el modelo realice la tarea solo en un pase hacia adelante. en el momento de la prueba. Por lo general, mostramos al modelo docenas de ejemplos en una configuración de pocas tomas. Las palabras exactas para todas las descripciones de tareas, ejemplos y sugerencias se pueden encontrar en el Apéndice G.

  • El ajuste fino (FT), el enfoque más común en los últimos años, implica actualizar los pesos de un modelo previamente entrenado entrenándolo en un conjunto de datos supervisado específico para la tarea deseada. Por lo general, se utilizan de miles a cientos de miles de ejemplos etiquetados. La principal ventaja del ajuste fino es su excelente rendimiento en muchos puntos de referencia. Las principales desventajas son la necesidad de un nuevo conjunto de datos grande para cada tarea, la posibilidad de una distribución de generalización deficiente [MPL19] y la posibilidad de explotar características espurias de los datos de entrenamiento [GSL+18, NK19], lo que puede generar diferencias con desempeño humano Hacer una comparación injusta. En este trabajo, no ajustamos GPT-3 porque nuestro enfoque está en el rendimiento independiente de la tarea, pero en principio es posible ajustar GPT-3 y es una dirección prometedora para el trabajo futuro.
  • Few-Shot (FS) es el término que usaremos en este trabajo y se refiere al entorno en el que el modelo está condicionado a alguna demostración de la tarea en el momento de la inferencia [RWC+19] pero no se le permite actualizar los pesos. Como se muestra en la Figura 2.1, para un conjunto de datos típico, un ejemplo tiene un contexto y una finalización deseada (por ejemplo, una oración en inglés y una traducción al francés), y al dar K ejemplos de contexto y finalización, seguidos de un contexto de ejemplo final, los modelos son Se espera entregar completo. Por lo general, establecemos K en el rango de 10 a 100, ya que esta es la cantidad de ejemplos que caben en la ventana de contexto del modelo (nctx = 2048). La principal ventaja de pocos disparos es que reduce en gran medida la necesidad de datos específicos de la tarea y reduce la posibilidad de aprender una distribución demasiado estrecha de un conjunto de datos de ajuste fino grande pero estrecho. El principal inconveniente es que, hasta el momento, los resultados de este método son mucho peores que los modelos perfeccionados de última generación. Además, todavía se requiere una pequeña cantidad de datos específicos de la tarea. Como sugiere el nombre, el aprendizaje de pocos disparos que se describe aquí para los modelos de lenguaje está relacionado con el aprendizaje de pocos disparos que se usa en otros contextos en ML [HYC01, VBL+16]: ambos implican aprender sobre una amplia distribución de tareas (implícitas en este caso en los datos pre-entrenados) y luego adaptarse rápidamente a las nuevas tareas.
  • One-Shot (1S) es lo mismo que few-shot, excepto que solo se permite una demostración, además de una descripción en lenguaje natural de la tarea, como se muestra en la Figura 1. Lo que distingue al one-shot del zero-shot de pocos disparos (abajo) es que se acerca más a la comunicación con humanos para ciertas tareas. Por ejemplo, la tarea a menudo se demuestra cuando se les pide a los humanos que generen conjuntos de datos en servicios humanos como Mechanical Turk. Por el contrario, a veces es difícil comunicar el contenido o el formato de una tarea si no se dan ejemplos.
  • Zero-Shot (0S) es lo mismo que one-shot, excepto que no se permite ninguna demostración y el modelo solo recibe una instrucción en lenguaje natural que describe la tarea. Este enfoque ofrece el mayor potencial de conveniencia, robustez y evitación de correlaciones espurias (a menos que ocurran muy ampliamente en grandes corpus de datos previamente entrenados), pero también es el entorno más desafiante. En algunos casos, los humanos pueden incluso tener dificultades para comprender el formato de las tareas sin precedentes, por lo que esta configuración es "injusta" en algunos casos. Por ejemplo, si se le pide a alguien que "haga un formulario de récord mundial para la carrera de 200 metros", la solicitud puede ser ambigua porque puede no estar claro qué formato debe tener el formulario o qué debe incluir (incluso con una aclaración cuidadosa, entender exactamente lo que se requiere puede ser difícil). Aún así, al menos para algunas configuraciones, el disparo cero es lo más cercano a cómo los humanos realizan tareas; por ejemplo, en el ejemplo de traducción en la Figura 2.1, los humanos pueden saber qué hacer basándose solo en instrucciones textuales.

        La Figura 2.1 muestra cuatro enfoques, tomando el ejemplo de traducir del inglés al francés. En este documento, nos enfocamos en zero-shot, one-shot y few-shot, con el objetivo de compararlos no como opciones en competencia, sino como diferentes configuraciones de problemas que permiten diferenciar entre el rendimiento y la eficiencia de la muestra para un punto de referencia en particular. -apagado. Enfatizamos particularmente los resultados de pocos disparos, ya que muchos de ellos se quedan solo un poco por detrás de los modelos ajustados de última generación. Sin embargo, en última instancia, uno, ya veces cero, parece ser la comparación más justa con el desempeño humano y es un objetivo importante para el trabajo futuro.
        Las secciones 2.1-2.3 a continuación detallan nuestro modelo, datos de entrenamiento y proceso de entrenamiento, respectivamente. La sección 2.4 analiza los detalles de cómo realizamos evaluaciones de pocos disparos, un disparo y cero disparos.

Tabla 2.1: Tamaños, arquitecturas e hiperparámetros aprendidos (tamaño de lote de tokens y tasa de aprendizaje) de nuestros modelos entrenados. Todos los modelos fueron entrenados en un total de 300 mil millones de tokens.

 2.1 Modelo y Arquitectura

Supongo que te gusta

Origin blog.csdn.net/keeppractice/article/details/130656775
Recomendado
Clasificación