BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

16/03/2020 19:35

Pedido: pequeño modelo de precisión, la eficacia fue significativamente mejor que el MLM.

Nota: Recientemente, Google anunció el modelo de lenguaje AI ELECTRA como modelo de código abierto sobre la liberación TensorFlow. Este nuevo método utiliza una misión de pre-entrenamiento llamado detector de señal alternativa (IDT), por lo que es posible posicionar simultáneamente todas las entradas del aprendizaje, el modelo de formación bidireccional.

Y, en el caso de los mismos recursos de computación, ELECTRA un mejor rendimiento que los métodos existentes; en el caso de tan sólo 1/30 de la cantidad de parámetros para obtener no menos favorable que el modelo más avanzado de la actuación serie BERT. Google publicó un artículo relacionado describe los resultados de esta fuente abierto, fuente Lei Feng red de AI de un comentario para organizar compilados de la siguiente manera.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

El lenguaje actual modelo situación y los problemas

En los últimos años, los últimos avances en el modelo anterior a la enseñanza de idiomas permite el procesamiento del lenguaje natural también ha hecho progresos significativos, incluyendo algunos de los más avanzados modelos, tales como: BERT, Roberta, XLNet, ALBERT T5 y así sucesivamente.

Aunque estos métodos difieren en diseño, pero en particular el uso de tareas de PLN (por ejemplo: análisis de los sentimientos y resolución de problemas, etc.) cuando el ajuste fino, tiene la misma idea, a saber: el uso de una gran cantidad de texto sin etiqueta, para construir un entendimiento común del lenguaje modelo.

Por lo tanto, los métodos de pre-formación existentes se dividen generalmente en dos categorías: modelo de lenguaje (LM), por ejemplo: GPT. Tal método de procesamiento de un texto de entrada en orden de izquierda a derecha, a continuación, en el caso del contexto dado previamente, para predecir la siguiente palabra.

Otra máscara es el modelo de lenguaje (MLM), por ejemplo: BERT, RoBeRtA y ALBERT. Tales pequeñas cantidades de modelos de palabras que son contenido predictivo de la entrada está bloqueado. MLM en comparación con el LM, que tiene la ventaja de predicción bidireccional, ya que puede ver el texto que desea predecir la palabra de la izquierda y de la derecha.

Sin embargo, hay desventajas MLM predicciones del modelo, modelos de predicción se limitan a un pequeño subconjunto de la símbolo de entrada (porción enmascarada del 15%), reduciendo así la cantidad de información que reciben de cada frase, los aumentos de los costos computacionales .

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

métodos de entrenamiento y sus defectos preexistentes. Las flechas indican que la etiqueta se utiliza para generar una representación de salida dada (rectángulo). Izquierda: El modelo de lenguaje tradicional (por ejemplo, GPT) utilizando única palabra salió del contexto actual. Derecha: Máscara modelo de lenguaje (por ejemplo BERT) se deja a la derecha con el contexto, para cada entrada, pero sólo una fracción de la palabra predicha

El nuevo modelo de formación previa ELECTRA

Precisamente con el fin de superar las deficiencias de los anteriores dos tipos de modelo de lenguaje, Google propuso ELECTRA (Learning eficientemente un codificador que clasifica Token Reemplazos precisión) modelo de lenguaje. Este es un nuevo método para la formación previa, el punto clave es la formación identificador de texto pre-codificador como generadores y no tener que lidiar con el modelo de lenguaje existente problema.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

Papeles Dirección: https://openreview.net/pdf?id=r1xMH1BtvB

Al mismo tamaño que el modelo de datos, donde la cantidad de cálculo, el rendimiento del método es significativamente superior al método del tipo MLM, por ejemplo BERT y XLNet; Además, ELECTRA pequeño modelo requiere sólo una GPU para obtener la formación de cuatro días.

los datos experimentales específicos muestran que este modelo es más pequeño que el modelo más pequeño puntuación BERT alta COLA 5 puntos, y aún mayor que el modelo GPT (este modelo se utiliza más de 30 veces la potencia de cálculo) resultados aún mejores.

Cuando la cantidad de cálculo y ELECTRA usando menos de 1/4, y pueden alcanzar el rendimiento Roberta COLA XLNet en la comprensión de lenguaje natural de referencia. Si utiliza más equipos para entrenar a gran ELECTRA, el modelo en la clasificación SquaD conjunto de datos 2.0 Q y del lenguaje Descripción de las tareas de acceso a la actuación más avanzada. (Ver datos específicos cuarta sección)

La idea central - la sustitución de la detección de contadores

ELECTRA llamado usando contador de detección alternativo (RTD) pre-entrenado nueva tarea que todas las entradas de las posiciones: mientras que el aprendizaje (por ejemplo, el LM), los modelos de dos vías entrenados (por ejemplo .: MLM).

En concreto, el objetivo ELECTRA es aprender a distinguir entre la palabra de entrada. No utiliza una máscara, pero a partir de una sugerencia de sustituir la palabra en la distribución de muestreo de entrada, que resuelve la máscara inconsistencia de llevar pre-entrenamiento y poner a punto el problema.

A continuación, un modelo para predecir el reciclaje discriminador de cada palabra son las palabras originales de palabras o de reemplazo. La ventaja de un discriminador es: modelo de aprendizaje de todas las palabras están entrando, en lugar de como MLM, utilizando sólo palabras para encubrir, por lo que los cálculos son más eficaces.

Como muchos desarrolladores piensan en el aprendizaje de métodos de confrontación, ELECTRA realmente inspirado para generar confrontación de red (GAN). Pero la diferencia es que el modelo utiliza un máximo aprendizaje similar pero no de confrontación.

Por ejemplo en la siguiente figura, la palabra "cocido" puede ser reemplazado con "ato". Aunque esto es algo de verdad, pero no se ajusta a todo el contexto. Preentrenamiento necesidades de tareas para modelo (es decir, discriminador) para determinar qué entradas de la etiqueta original ha sido sustituido o siguen siendo los mismos.

Es debido a que la tarea de clasificación binaria del modelo se aplica a cada palabra de entrada, y no sólo una pequeña cantidad de la palabra de máscara (patrón BERT en el modelo fue del 15%), y por lo tanto, la eficiencia del método de RTD es más alta que MLM. Esto también explica por qué menos ELECTRA sólo un ejemplo, podemos lograr el mismo motivo distinto rendimiento modelo de lenguaje.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

Cuando todas las entradas de la adquisición de la posición, la detección de trenes token de reemplazo para bidireccional

En el que la red neuronal del generador de señales de reemplazo. generador de máscara destino está capacitado modelo de lenguaje, es decir, después de una secuencia de entrada dado, de acuerdo con una cierta proporción (típicamente 15%) será reemplazado con la máscara en la palabra de entrada, y luego obtener una representación vectorial través de una red; utilizando la capa softmax tras otro, entrar en la secuencia de palabras para predecir la posición de máscaras.

Aunque el generador de estructura similar a la GAN, pero el texto es difícil de aplicar este método a la tarea, a fin de obtener la formación de la función objetivo es cubrir la máxima probabilidad palabra a continuación.

A partir de entonces, el generador de discriminador, y comparten la misma palabra de entrada incrustados. discriminador de Objetivo de la secuencia de entrada es para determinar si cada posición es reemplazado por un generador de palabras, si la posición de la palabra correspondiente a la secuencia de entrada original no es idéntica, se determina como la sustitución.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

generador de discriminador y modelo de red neuronal

Los resultados específicos contraste

Los investigadores ELECTRA con otra PNL últimos modelos se comparan y se encontró que en el caso dado los mismos cálculos presupuestarios, se compara con el método anterior ha habido una mejora sustancial en su rendimiento y Roberta y XLNet bastante, y el uso menos de una cuarta parte de la cantidad de cálculo.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

Eje x muestra la cantidad de cálculos para el modelo de formación (en unidades Flops), muestra eje-y dev puntuación pegamento. En comparación con el modelo de la PNL entrenada previamente existente, la eficiencia de aprendizaje ELECTRA es mucho mayor. Es de destacar que el mejor modelo actual (por ejemplo, T5 (11B)) no es cola adecuada en el dibujo, debido a que los modelos de cálculo distintos de su uso mucho (más de 10 veces RoBeRtA)

Para mejorar aún más la eficiencia, los investigadores trataron de un pequeño modelo ELECTRA que puede ser bien entrenado en cuatro días inherente de una GPU.

Aunque es imposible de lograr con la necesidad de formar muchos de los mismos TPU exactitud modelo grande, el rendimiento ELECTRA-pequeño, pero sigue siendo muy bueno, incluso mejor que el GPT, y la cantidad de cálculo necesaria, pero sólo un tercio.

Entonces, con el fin de probar si este resultado puede ser una gran escala, los investigadores utilizaron más de cálculo (RoBeRtA aproximadamente la misma cantidad, aproximadamente el 10% de T5) formado a un gran modelo ELECTRA.

Los investigadores gran ELECTRA, Roberta, XLNet, BERT ALBERT modelo y responder preguntas en la selección de conjuntos de datos de rendimiento de 2.0 a hacer la prueba, los resultados que se muestran en la siguiente tabla, se puede ver en la cola gráficos, ELECTRA superó a todos los demás modelos .

Sin embargo, en comparación con el modelo grande T5-11b, esta última anotación en la cola aún más alto. Pero vale la pena señalar que el tamaño de la ELECTRA es un tercio, y el 10% del cómputo de entrenamiento.

BERT victoria, el mejor modelo de pre-formación de PNL Google de código abierto

ESCUADRÓN 2.0 conjuntos de datos puntuación ELECTRA-Large y otros modelos más recientes

Actualmente, el código para el pre-entrenamiento ELECTRA y afinar en la tarea aguas abajo ha sido puesto en libertad, las tareas de apoyo actuales incluyen: clasificación de texto, las preguntas y los marcadores de secuencia.

El código es compatible con la rápida formación del modelo de ELECTRA pequeña en una GPU. Después de eso, Google también planea lanzar el código se aplica a PRECAPACITACIóN ELECTRA-Large, ELECTRA-base y Pequeño ELECTRA-de. (Modelo ELECTRA actualmente disponible en Inglés, el seguimiento se dará a conocer en más idiomas)

Dirección original:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHub Dirección:

https://github.com/google-research/electra

Al igual que la salsa de soja experto en el blog

Publicados 472 artículos originales · ganado elogios 757 · Vistas 1,61 millones +

Sus tablero de mensajes preocupaciones