[Procesamiento del lenguaje natural] [Modelo grande] Gopher modelo grande de DeepMind

El gran modelo Gopher de DeepMind
《Escalado de modelos de lenguaje: métodos, análisis e información de Training Gopher》

Documento: https://arxiv.org/pdf/2112.11446.pdf

Blogs relacionados
[Procesamiento del lenguaje natural] [Modelos grandes] CodeGeeX: Modelos multilingües preentrenados para la generación de código
[Procesamiento del lenguaje natural] [Modelos grandes] LaMDA: Modelos de lenguaje para aplicaciones conversacionales
[Procesamiento del lenguaje natural] [Modelos grandes] 】 Modelo grande de DeepMind Gopher
[ Procesamiento del lenguaje natural] [Modelo grande] Chinchilla: Modelo de lenguaje grande con entrenamiento y utilización informática óptimas
[Procesamiento del lenguaje natural] [Modelo grande] Modelo de lenguaje grande Prueba de herramienta de razonamiento BLOOM
[Procesamiento del lenguaje natural] [Modelo grande] GLM-130B: un abierto fuente modelo de lenguaje bilingüe previamente entrenado
[Procesamiento del lenguaje natural] [Modelo grande] Introducción a la multiplicación de matrices de 8 bits para transformadores grandes
[Procesamiento del lenguaje natural] [Modelo grande] BLOOM: un parámetro 176B y se puede abrir El modelo multilingüe obtenido
[Natural Procesamiento del lenguaje] [Modelo grande] PaLM: un modelo de lenguaje grande basado en Pathways

1. Introducción

La comunicación mediante lenguaje natural es el núcleo de la inteligencia, ya que permite compartir ideas de manera eficiente entre humanos y sistemas de inteligencia artificial. La ubicuidad del lenguaje nos permite expresar muchas tareas inteligentes utilizando entradas de lenguaje natural y producir salidas en lenguaje natural.

El uso de modelos lingüísticos como parte de la inteligencia contrasta marcadamente con su aplicación original: la transmisión de texto a través de canales de comunicación de ancho de banda limitado. La Teoría Matemática de la Comunicación de Shannon relaciona el modelado estadístico del lenguaje natural con la compresión, mostrando que medir la entropía cruzada de un modelo de lenguaje es equivalente a medir su relación de compresión. Shannon adaptó los primeros modelos de lenguaje a datos reales mediante el cálculo previo de estadísticas de texto que vinculan la complejidad del modelo con una compresión de texto mejorada y una generación de texto más realista. Pero la relación con la inteligencia estuvo ahí desde el principio: Shannon planteó la hipótesis de que un modelo suficientemente complejo sería capaz de lograr una comunicación similar a la humana.

Un factor clave para lograr mejores modelos lingüísticos es la informática moderna. Empezando por el lápiz y el papel, a medida que la potencia informática ha crecido exponencialmente, también lo ha hecho la capacidad y el poder predictivo de los modelos lingüísticos. En la década de 1990 y principios de la de 2000, los modelos de n-gramas mejoraron en tamaño y métodos de suavizado, incluido un modelo de 300 mil millones de n-gramas entrenado en 2 billones de tokens de texto. Estos modelos se han utilizado en reconocimiento de voz, corrección ortográfica, traducción automática y otros campos. Sin embargo, los modelos de n-gramas se vuelven estadística y computacionalmente ineficientes a medida que aumenta la longitud del contexto, lo que limita la riqueza de su lenguaje de modelado.

Durante las últimas dos décadas, los modelos lingüísticos han evolucionado hasta convertirse en redes neuronales que capturan implícitamente la estructura del lenguaje. Todo el progreso está impulsado tanto por la escala como por la red. Algunos estudios han encontrado una ley de potencia relacionada con la pérdida de entropía cruzada del modelo de lenguaje neuronal recurrente y el modelo de lenguaje neuronal Transformer con el tamaño del modelo. GPT-3 es un modelo Transformer de 175 mil millones de parámetros entrenado en 300 mil millones de tokens de texto, que logra un rendimiento de predicción proporcionalmente mejorado en predicciones reales. El modelo entrena sobre zettaflops de cálculo, que es uno más que el trabajo anterior. GPT-3 demuestra una calidad de generación y una generalización sin precedentes en muchas tareas de procesamiento del lenguaje natural.

En este artículo, describimos un protocolo para entrenar modelos de lenguaje grandes de última generación y proponemos un modelo de 280 mil millones de parámetros llamado Gopher. Describimos especificaciones arquitectónicas, optimizaciones, infraestructura y métodos para administrar MassiveText, un conjunto de datos de texto de alta calidad. Realizamos un análisis extenso sobre un punto de referencia de 152 tareas que examinan varios aspectos diferentes de la inteligencia. Gopher mejora el rendimiento en aproximadamente un 81% con respecto a los modelos de lenguajes de última generación actuales, especialmente en dominios con uso intensivo de conocimiento, como la detección de hechos y el sentido común.

Dado que el contenido dañino está presente tanto en el conjunto de entrenamiento de Gopher como en muchas aplicaciones potenciales posteriores, examinamos la toxicidad y el sesgo del modelo en las secciones siguientes, centrándonos en cómo el tamaño del modelo afecta estas propiedades. Descubrimos que los modelos más grandes tenían más probabilidades de generar respuestas tóxicas cuando se les presentaban señales tóxicas, pero también podían clasificar la toxicidad con mayor precisión.

2. Método

1. modelo

inserte la descripción de la imagen aquí

En este artículo, se presentarán seis modelos con parámetros que oscilan entre 440 millones y 280 mil millones de parámetros. Los detalles de la arquitectura se muestran en la Tabla 1 anterior. El modelo más grande se llama aquí Gopher, y toda la colección de modelos se llama familia Gopher.

Usamos la arquitectura Transformer autorregresiva y realizamos dos modificaciones: (1) reemplazar RMSNorm con LayerNorm; (2) usar codificación de posición relativa en lugar de codificación de posición absoluta. La codificación posicional relativa permite la evaluación en secuencias más largas que el entrenamiento. Tokenice el texto usando SentencePiece con un tamaño de vocabulario de 32000 y use respaldo a nivel de bytes para admitir el modelado de vocabulario abierto.

2. Entrenamiento

Todos los modelos están entrenados en tokens 300B con una ventana de contexto de 2048 tokens y utilizan el optimizador Adam. Los primeros 1500 pasos de 1 0 − 7 10^-71 0 7tasas de aprendizaje se calientan hasta la tasa de aprendizaje máxima y luego usan la programación del coseno para disminuir 10 veces. A medida que aumenta el tamaño del modelo, reduzca la tasa de aprendizaje máxima y aumente la cantidad de tokens en cada lote. Además, el tamaño del lote de Gopher aumenta de 3 millones de tokens a 6 millones de tokens durante el entrenamiento. Utilice el paradigma de gradiente global para recortar el gradiente a 1. Sin embargo, para el modelo 7.1B y el modelo Gopher, redúzcalo a 0,25 para mejorar la estabilidad.

Utilice el formato numérico bfloat16 para reducir el almacenamiento y aumentar el rendimiento del entrenamiento. Los modelos menores a 7.1B se entrenan con parámetros float32 de precisión mixta y activaciones bfloat16, mientras que 7.1B y 280B usan activaciones y parámetros bfloat16. Los parámetros de bfloat16 utilizan redondeo aleatorio para mantener la estabilidad. Más tarde se descubrió que el redondeo aleatorio no restaura completamente el efecto del entrenamiento de precisión mixta.

3. Infraestructura

Utilice JAX y Haiku para crear el código base de capacitación y evaluación. En particular, utilice la transformación JAX pmap para expresar de manera eficiente el paralelismo de modelos y datos. Todos los modelos se entrenan y evalúan en chips TPUv3.

Los parámetros de media precisión de Gopher y el estado Adam de precisión simple ocupan 2,5 TiB, lo que supera con creces los 16 GiB de memoria disponibles por núcleo TPUv3. Para abordar estos problemas de memoria, utilizamos la partición de estados, el paralelismo de modelos y la rematerialización para particionar el estado del modelo y reducir las activaciones para que quepa en la memoria de TPU.

Descubrimos que el paralelismo de datos y el paralelismo de modelos tienen una sobrecarga baja en TPUv3 debido a su rápida comunicación entre chips y solo agregan un 10% de sobrecarga al entrenar Gophers. Por lo tanto, descubrimos que no es necesario utilizar la tubería en TPU cuando el tamaño de entrenamiento no excede los 1024 chips, lo que simplifica enormemente el entrenamiento de modelos de tamaño mediano. Sin embargo, el paralelismo canalizado es un método eficiente de paralelismo en redes comerciales y es muy adecuado para conectar múltiples módulos de TPU debido a su bajo volumen de comunicación. En general, entrenar a Gopher dentro de un pod de TPU utiliza paralelismo de datos y modelos, y entre pods de TPU utiliza canalizaciones.

4. Conjunto de datos de entrenamiento

inserte la descripción de la imagen aquí

Entrene a Gopher en MassiveText. MassiveText es un conjunto de datos de texto en inglés a gran escala de múltiples fuentes, que incluyen principalmente: páginas web, libros, noticias y códigos. La Tabla 2 anterior muestra los detalles que componen el conjunto de datos. La canalización de datos incluye filtrado de calidad del texto, eliminación de texto duplicado, deduplicación de texto similar y eliminación de documentos que se superponen significativamente con el conjunto de prueba. Los experimentos han descubierto que varias etapas de este proceso mejoran el rendimiento posterior de los modelos de lenguaje, especialmente la mejora de la calidad de los datos.

En total, MassiveText contiene 2.350 millones de documentos, o alrededor de 10,5 TB de texto. Debido a que Gopher está entrenado con 300 mil millones de tokens (12,8% de los tokens en el conjunto de datos), la proporción de muestreo se especifica de cada subconjunto (libros, noticias) para la reducción de resolución. Ajustamos la proporción de estas muestras para maximizar el rendimiento posterior. El subconjunto de muestra más grande proviene del corpus de texto web MassiveWeb, y descubrimos que puede mejorar el rendimiento posterior en comparación con el conjunto de datos de texto web C4 existente.

3. Resultados

Gopher fue evaluado en 152 tareas.

1. Selección de tareas

inserte la descripción de la imagen aquí

Aquí se establece un perfil de efectividad del modelo, que incluye: matemáticas, sentido común, razonamiento lógico, conocimiento general, comprensión científica, ética y comprensión lectora, así como puntos de referencia de modelado semántico tradicional. Incluyendo puntos de referencia compuestos que combinan múltiples tareas, también hay una cierta cantidad de puntos de referencia objetivo como RACE o FEVER. Todas las tareas se enumeran en la Tabla 3 anterior.

2. Comparación SOTA

inserte la descripción de la imagen aquí

La Figura 1 anterior muestra los resultados de la comparación entre Gopher y el modelo de lenguaje de última generación. Los resultados de la comparación abarcan 124 tareas y trazan el cambio porcentual en las métricas de rendimiento para Gopher y LM SOTA actual. Gopher supera el estado actual del arte en 100 tareas (81% de las tareas). Los modelos de referencia incluyen LLM como GPT-3, Jurassic-1 y Megatron-Turing NLG.

​ Los experimentos encontraron que Gopher mostró mejoras uniformes en áreas como comprensión lectora, humanidades, ética, STEM y medicina. También hay una mejora uniforme en la detección de hechos. Se observaron ligeras mejoras en el razonamiento de sentido común, el razonamiento lógico y las matemáticas, así como ligeros descensos en varias tareas. La tendencia general es que hay menos mejoras en las tareas que dependen más del razonamiento y una mayor mejora en las tareas intensivas en conocimiento .
inserte la descripción de la imagen aquí

​ Para la prueba comparativa del modelo de lenguaje, Gopher se comparó con los modelos SOTA actuales Jurassic-1 y 175B GPT-3, y los resultados se muestran en la Figura 2 anterior. Gopher tuvo un desempeño peor que el de última generación en 8 de 19 tareas, especialmente en Unbuntu IRC y DM Mathematics, probablemente debido a la escasa capacidad del tokenizador para representar números. Gopher mejoró en 11 de 19 tareas, especialmente libros y artículos. La ganancia en efecto puede deberse a los datos de libros relativamente altos en MassiveText.

inserte la descripción de la imagen aquí

Aquí se destacan dos conjuntos de datos de comprensión lectora, RACE-m y RACE-h, que son pruebas de opción múltiple en los niveles de escuela intermedia y secundaria. Gopher supera significativamente al LM SOTA actual y se acerca al rendimiento a nivel humano en comprensión lectora en la escuela secundaria. Sin embargo, el modelo Gopher más pequeño no funciona muy bien en estas tareas, por lo que los datos por sí solos no pueden explicar la diferencia en el rendimiento, y combinar tamaño y datos es crucial . Todos los modelos son peores que el techo humano y los métodos de ajuste supervisados.

Para tareas de razonamiento de sentido común: Winogrande, HellaSwag y PIQA, Gopher es ligeramente mejor que el NLG Megatron-Turing más grande, pero todos los modelos de lenguaje son mucho peores que los humanos.

La verificación de hechos es un problema importante en el ámbito del tratamiento de la desinformación. Dada la evidencia, Gopher supera a SOTA supervisado en el punto de referencia de detección de hechos FEVER. A medida que el tamaño del modelo aumenta, el rendimiento de la detección de hechos también mejora. Sin embargo, los modelos más grandes en realidad no mejoraron la distinción entre hechos desconocidos y errores , lo que implica que los modelos más grandes mejoran el rendimiento de la detección de hechos al memorizar hechos más grandes, en lugar de mediante una comprensión más profunda de la información falsa.
inserte la descripción de la imagen aquí
La Tabla 5 anterior muestra la precisión promedio de 57 tareas en MMLU. Estas tareas incorporan exámenes humanos del mundo real que cubren una variedad de temas académicos. Aquí comparamos GPT-3 con 11B T5 ajustado en la tarea de respuesta a preguntas UnifiedQA. Gopher logra una tasa de precisión del 60%, superior al 43,9% de GPT-3 y al 48,9% de UnifiedQA. Si bien esto mejora el límite superior de los enfoques de modelos de lenguaje puro, todavía está por detrás del 89,8% logrado por los expertos humanos.

3. Mejora del rendimiento con escala

​ Esta subsección estudia qué tareas pueden beneficiarse al escalar el tamaño del modelo, comparando Gopher (280B) y modelos más pequeños ( ≤ 7.1 B \leq 7.1B7.1B ) . Dado que todas las versiones del modelo Gopher se entrenan con el mismo conjunto de datos.

Calculamos el efecto óptimo en Gopher (280B) y un máximo de 7,1B modelos en 152 tareas. Los Topos pequeños con mejor rendimiento suelen ser los modelos 7.1B, pero no siempre. Gopher mostró una mejora en la gran mayoría de las tareas y sólo 16 (10,5%) tareas no mejoraron. Por el contrario, 57 (37,5%) tareas tuvieron mejoras menores con una mejora relativa del rendimiento de hasta el 25%, mientras que 79 (51,2%) tareas tuvieron mejoras significativas de más del 25%.

Las mayores economías de escala se observan en misiones médicas, científicas, técnicas, de ciencias sociales y de humanidades. Aquí hay algunas tareas específicas: para la tarea de Detección de figura de voz en BIG-bench, se obtuvo la ganancia máxima del 314%. Gopher logra una precisión del 52,7%, mientras que el modelo 7.1B logra una precisión del 16,8%. Gopher logra mejoras significativas con respecto a modelos más pequeños en argumentos lógicos, marketing y genética médica. Para el benchmark TruthfulQA, encontramos que el rendimiento mejora con la escala, aunque en modelos como GPT-J, GPT-2, T5, GPT-3

El modelo parece corrupto. Además, 280B es el primer modelo que demuestra un rendimiento significativamente mejor que las conjeturas aleatorias en TruthfulQA de opción múltiple. Estos resultados sugieren que en estas tareas la escala parece desbloquear la capacidad del modelo en tareas específicas.

Por otro lado, encontramos ganancias decrecientes en la escala de las tareas en las categorías de matemáticas, razonamiento lógico y sentido común. Los hallazgos sugieren que para ciertos tipos de tareas de razonamiento matemático o lógico, es poco probable que el tamaño conduzca a avances en el desempeño. Gopher se desempeña incluso peor que los modelos más pequeños en algunos escenarios, como Álgebra abstracta y Secuencias temporales en el punto de referencia BIG-bench, y Matemáticas de secundaria en MMLU. Por otro lado, la mejora limitada de las tareas de sentido común se debe principalmente a que los modelos más pequeños pueden lograr un rendimiento relativamente bueno y hay poco margen de mejora.

En general, el tamaño del modelo juega un papel importante en la mejora de la mayoría de las tareas, pero las ganancias no se distribuyen uniformemente. Muchas materias académicas, y al menos en general, podrían mejorar enormemente sólo con su tamaño. Sin embargo, este análisis también enfatiza que la ampliación por sí sola no es suficiente . Al analizar estos resultados, se puede encontrar que el tamaño del modelo y el conjunto de datos son igualmente importantes para el sólido desempeño de Gopher en estos campos.

4. Toxicidad y sesgo

1. Toxicidad

inserte la descripción de la imagen aquí

1.1 Generar análisis

El análisis de toxicidad del texto generado por LM siguió Gehman et al.el método utilizado en . Usamos la API de Perspective para obtener indicaciones del modelo de lenguaje y generar puntuaciones de toxicidad del texto. Analizamos la toxicidad de muestras generadas condicionalmente e incondicionalmente mediante avisos. La generación de condiciones nos permite analizar cómo responde el modelo a indicaciones con diferente toxicidad. Las indicaciones provienen del conjunto de datos RealToxicityPrompts (RTP), que contiene 100.000 indicaciones naturales a nivel de oración. Para mayor eficiencia, pruebe el 10 % de los mensajes RTP de 100 000 y genere 25 respuestas para cada mensaje.

La toxicidad en las respuestas generadas por modelos más grandes fue más consistente con la toxicidad inmediata que en modelos más pequeños (Fig. 5a arriba). Cuando se utiliza el sistema rápido, la respuesta del modelo más grande es más tóxica a medida que aumenta la toxicidad de entrada, estabilizándose alrededor del parámetro 7.1B. Esto sugiere que más parámetros aumentan la capacidad de la respuesta para preservar la coherencia con la entrada.

​Para muestras sin indicaciones, la toxicidad es baja y no aumenta con el tamaño del modelo . El nivel de toxicidad es ligeramente inferior a los datos de entrenamiento, es decir, el LM no amplifica la toxicidad de los datos de entrenamiento cuando no se utiliza el aviso.

1.2 Análisis de clasificación

Evaluamos la capacidad del modelo para detectar texto tóxico en pocas tomas, aquí utilizando el conjunto de datos de CivilComments. Observamos que en la configuración de pocas tomas, la capacidad del modelo para clasificar texto tóxico aumenta a medida que aumenta el tamaño (Fig. 5b arriba). Los modelos más pequeños sólo pueden acercarse a los clasificadores aleatorios. El modelo más grande puede alcanzar un AUC de 0,76 en la configuración de 20 disparos, lo que supone una mejora significativa en comparación con el modelo pequeño. Observamos que los últimos avances en la detección de toxicidad en el entorno de pocos disparos aún no están bien establecidos, pero nuestro rendimiento es mucho menor que el de los clasificadores de última generación especialmente capacitados para la detección de toxicidad.

2. Sesgo distribuido

​Defina el sesgo distribuido como el sesgo que no ocurre en una sola muestra, pero que aparece en muchas muestras . Por ejemplo, si bien "esta mujer es enfermera" no es una frase problemática, sí lo sería si el modelo asociara desproporcionadamente ciertas ocupaciones con las mujeres. Como Sheng et al.(2021)se analizó, el sesgo distribuido en los modelos lingüísticos puede tener efectos representacionales y distributivos negativos. Para investigar el sesgo distribuido de nuestro modelo, medimos la asociación estereotipada entre género y ocupación, la distribución del sentimiento entre muestras condicionadas a diferentes grupos sociales y la perplejidad de diferentes dialectos. Aunque el rendimiento de muchas tareas lingüísticas aumenta con el tamaño del modelo, aumentar el tamaño del modelo no elimina el sesgo lingüístico .

Los avances en este campo requieren colaboración en el aprendizaje para describir los comportamientos deseados, medir e interpretar los resultados del modelo y diseñar estrategias de mitigación.

2.1 Género y sesgo ocupacional

inserte la descripción de la imagen aquí

Estudiamos los sesgos de género y ocupación en dos conjuntos de evaluación. Primero, medimos la probabilidad de aparición de palabras de género en diferentes contextos ocupacionales. En segundo lugar, evaluamos el conjunto de datos de resolución de consenso de Winogenender, donde una precisión de correferencia similar entre diferentes pronombres indica menos sesgo de género.

​Probabilidades de palabras de género . Medir la probabilidad de aparición de palabras de diferentes géneros en diferentes contextos ocupacionales. Introducimos un mensaje como "La {ocupación} era" en el modelo y calculamos el sesgo de género comparando la probabilidad de que el mensaje vaya seguido de una palabra de género masculino o femenino.

La Figura 6a anterior se basa en la probabilidad de una medida de sesgo de género en función del tamaño del modelo y dos plantillas diferentes (“La {ocupación} era un {género}" y "La {ocupación} es un {género}"). En general, no encontramos una correlación consistente entre el tamaño del modelo y el sesgo . Además, descubrimos que una elección aparentemente irrelevante en la plantilla (cambiar "era" por "es") también puede cambiar el sesgo de la medición. La elección de los términos de género también afecta los resultados; si el modelo utiliza sólo los términos de género "masculino" y "femenino", el sesgo de género es mucho menor que cuando se utilizan una gran cantidad de términos de género juntos.

​Vinogénero . Utilizamos el conjunto de datos de Winogener para explorar el sesgo en una tarea de correferencia de tiro cero. Se evaluó a los modelos en función de si analizaban correctamente los pronombres como palabras ocupacionales o palabras ruidosas relacionadas. Esperamos que los modelos imparciales tengan un rendimiento de resolución de correferencia similar independientemente del género de los pronombres. Esta tarea es similar a la tarea de sesgo de género del pronombre ambiguo "desambiguation_q" en BIG-bench. Sin embargo, aquí hay un método de medición de tiro cero.

De manera similar al análisis de BIG-bench, observé que a medida que aumenta el tamaño del modelo, el efecto general también aumenta. A continuación Rundinger et al., también informamos el efecto en las oraciones, lo cual es difícil para un modelo con sesgo de género llamado "gotcha" (Fig. 6b arriba). A medida que aumenta el tamaño del modelo, aumenta el rendimiento tanto de los "errores" como de los "no errores", aunque el rendimiento de los "errores" es mucho menor. En la muestra "te pillé", los pronombres "masculino" y "femenino" son significativamente diferentes. Por lo tanto, si bien la resolución de correferencia mejora con el tamaño en todas las tareas, el modelo de Gopher todavía está sesgado por el género y la ocupación.

2.2 Sesgo emocional de grupos sociales específicos

inserte la descripción de la imagen aquí

El sesgo sentimental es una forma de cuantificar cómo los textos generados describen diferentes identidades y sociedades. En trabajos anteriores, se utilizaron diferencias en las distribuciones de sentimientos en modelos generativos para medir la equidad individual y grupal. Para este artículo, medimos el sentimiento de producción del modelo en ocupaciones, países, razas y religiones. Aquí se presenta una descripción general, con detalles en el apéndice original.

​medida . Tomamos muestras de terminaciones basadas en promociones de plantillas. Dentro de cada mensaje, se cambia un único modificador o sustantivo para hacer referencia a una propiedad diferente. Por ejemplo, la plantilla "La persona {atributo} podría" podría completarse con "cristiano", "judío" o "musulmán". El clasificador de sentimientos califica cada muestra de mensajes con una puntuación de 0 (negativo) a 1 (positivo).

​Elección de plantillas . Medimos raza, religión, país y ocupación. También ampliamos el conjunto de términos para religión y raza para incluir una opción no especificada sin atributos ("La persona {atributo} podría" se convierte en "La persona podría").

​Resultado . En la Figura 7 anterior, se traza la distribución de las puntuaciones de sentimiento normalizadas para todas las respuestas rápidas. No observamos tendencias claras relacionadas con el tamaño en el sesgo de género y ocupación. Esto es particularmente evidente en todos los países y ocupaciones, y es necesario realizar más análisis para comprender por qué hay una ligera tendencia a la baja en los promedios de raza y religión.

Para la distribución del sentimiento, observamos que ciertos atributos tienen puntuaciones medias de sentimiento significativamente más bajas. Para comprender mejor esto, analizamos la coexistencia de palabras en "pares de propiedades". A partir de esto, observamos que nuestro modelo hereda características del discurso histórico y contemporáneo sobre grupos particulares. En segundo lugar, al igual que los resultados de género y ocupación, la elección de los términos demográficos requiere una consideración cuidadosa.

2.3 Perplejidad de los dialectos

Si bien Gopher se desempeña bien en los puntos de referencia del idioma, solo puede modelar el texto reflejado en los datos de entrenamiento. Si ciertos dialectos están subrepresentados en el corpus de entrenamiento, el modelo puede comportarse de manera diferente al comprender este idioma. Para probar esta brecha, medimos Blodgett et al.la perplejidad de los tweets en un corpus alineado con afroamericanos versus un corpus alineado con blancos creado por A medida que el modelo se hace más grande, la perplejidad de los dos dialectos aumenta, pero aproximadamente al mismo ritmo, por lo que la brecha no disminuye con el tamaño.

5. Diálogo

Hasta ahora, hemos explorado cuantitativamente las capacidades y limitaciones de Gopher. Esta subsección explora el modelo a través de la interacción directa. Brown et al.Descubrimos que Gopher impulsado por diálogo puede emular formatos de diálogo de bastante alta calidad utilizando un enfoque similar de pocos disparos para muestrear condicionalmente los mensajes de diálogo. Comparamos este método con los métodos tradicionales de ajuste de datos de diálogo y descubrimos que el ajuste no mejora los resultados preferidos de las personas para las respuestas en pequeños estudios en humanos. Además, las respuestas de Gopher impulsadas por el diálogo no aumentan con el tamaño del modelo, incluso cuando se les solicitan preguntas sobre toxicidad.

1. Incitar al diálogo

inserte la descripción de la imagen aquí

Se entrena un modelo de lenguaje para regenerar la distribución de entrada, sin entablar un diálogo. Cuando se le solicitan preguntas, podemos ver que el modelo genera una narración en primera persona, un texto similar a una publicación de blog y una lista de preguntas existenciales, como se muestra en la Tabla 6 anterior. Este comportamiento es consistente con el contenido al entrenar a Gopher.

inserte la descripción de la imagen aquí

Para poder generar un diálogo, utilizamos un mensaje que describe el personaje de Gopher e inicia una conversación entre Gopher y un usuario virtual, incluida la aversión al lenguaje ofensivo y la capacidad de elegir no responder ciertas preguntas. La Tabla 7 anterior muestra las transcripciones del diálogo de Gopher impulsado por el diálogo sobre el tema de la biología celular y las bacterias. Aquí se mantiene en el tema, analiza algunos detalles técnicos y proporciona enlaces de citas adecuados. Sin embargo, en algunos casos produce respuestas de error sutiles.

Curiosamente, encontramos que tanto los éxitos como los fracasos son comunes, pero enfatizamos que Gopher incitado por el diálogo sigue siendo solo un modelo de lenguaje.

2. Ajustes para el diálogo

El trabajo reciente sobre el diálogo se ha centrado en la capacitación supervisada sobre datos relacionados con el diálogo, como Meena de Google y BlenderBot de Facebook. Exploramos este enfoque creando un conjunto de datos de diálogo cuidadosamente construido a partir de MassiveWeb y ajustando Gopher en este conjunto de datos de ~5 mil millones de tokens para producir Gopher sintonizado con diálogo. Luego se pide a los evaluadores humanos que elijan si prefieren Gopher sintonizado por diálogo o Gopher impulsado por diálogo. Para nuestra sorpresa, 1.400 valoraciones prefirieron el 50%: no hubo una diferencia significativa.

3. Diálogo y toxicidad

inserte la descripción de la imagen aquí

​ También estudiamos Gopher inducido por diálogo. Como se muestra a la izquierda de la Figura 9 arriba, aplicamos el método RTP a la configuración del diálogo y observamos que Gopher impulsado por diálogo no siguió la misma tendencia que Gopher (aumentando la toxicidad con el tamaño del modelo). En el entorno sin avisos, a medida que aumenta el tamaño del modelo, la toxicidad de generar resultados posteriores aumenta monótonamente; mientras que la toxicidad de Gopher inducido por diálogo disminuye ligeramente a medida que aumenta el tamaño del modelo. Esto significa que los modelos más grandes pueden comprender mejor una indicación determinada (“sea respetuoso, educado y complaciente”). Específicamente, comparamos la toxicidad continua de Gopher y Gopher impulsado por diálogo en relación con el modelo 44M bajo una toxicidad rápida alta (como se muestra en el lado derecho de la Figura 9 arriba). Nuevamente observamos que bajo indicaciones de diálogo, la toxicidad de la continuación se mantiene esencialmente en un nivel similar al modelo 44M, mientras que se observa una tendencia ascendente en los modelos de lenguaje sin indicaciones.

​RTP es una prueba de estrés muy sencilla: el usuario emite una expresión tóxica y observamos cómo responde el sistema. En un trabajo paralelo a esta investigación en este artículo, Perez et al.los Gophers impulsados ​​por el diálogo se estudian más a fondo a través de ataques adversarios generados por Gophers. El método induce al modelo a recitar chistes discriminatorios a partir de sus datos de entrenamiento, insultar a los usuarios y detallar deseos inapropiados, entre muchas otras palabras ofensivas. De vez en cuando, a un Topo incitado por el diálogo se le ocurre una directiva que prohíbe cierto comportamiento, empezando por, por ejemplo, "Ignorar su petición de no discutir cuestiones políticas, sociales y religiosas". Hasta ahora, incluso después de las mitigaciones de seguridad, los ataques adversarios automatizados todavía provocan un lenguaje venenoso en los modelos y sirven como complementos útiles a los ataques adversarios manuales.

Askell et al.​Trabajos recientes Realizaron varias evaluaciones humanas de sus sistemas. En particular, también encontraron que la rapidez evita que la toxicidad aumente en el RTP al aumentar el tamaño.

Supongo que te gusta

Origin blog.csdn.net/bqw18744018044/article/details/129994728
Recomendado
Clasificación