[PNL] pre-entrevista modelo de entrenamiento de GC

modelo autorregresivo y de idioma en el lenguaje de codificación

  • lenguaje modelo autorregresivo

    • , La palabra predicción de la siguiente propuesta por el texto anterior
    • Ventajas: la densidad de probabilidad conjunta de un modelado de estimación de secuencia de texto hace que el modelo más aplicable a algunas de las tareas clases PNL generado, debido a que estas tareas cuando la generación de contenido es de izquierda a derecha, y de este modelo de regresión calce natural .
    • Desventajas: probabilidad conjunta se calcula de acuerdo con la secuencia de texto de izquierda a derecha, la siguiente información no se puede extraer;
    • modelo representativo: Elmo / GPT1.0 / GPT2.0 / XLNet (XLNet hecho algunas mejoras a característica permite la extracción de más abajo)
  • Desde la codificación de modelo de lenguaje

    • Es por al azar enmascarar algunas palabras, para predecir estas palabras según el contexto en el proceso de formación, la probabilidad predicha maximizada. Que es esencialmente un modelo de eliminación de ruido auto-codificación, la adición de [la MÁSCARA] es el modelo de ruido [el MASK] es la predicción sin ruido.
    • Ventajas: la información de contexto se pueden obtener mediante el uso de características bidireccionales representados
    • Desventajas: introduce el supuesto de independencia, es decir, entre cada una de [la MASK] son ​​independientes. Esto es en realidad una estimación sesgada del modelo de lenguaje, Además, como el pre-entrenamiento [la MÁSCARA] está presente, la fase previa a la formación de tal forma que el modelo de datos no coincide con la etapa de recorte, por lo que es difícil generar directamente una tarea.
    • Representantes modelo: Bert / Roberta / ERNIE

Bert

Antes de la Capacitación misión en Bert
Modelo enmascarado Idioma

En la misión de pre-formación, el 15% Palabra pieza son máscara, el 15% del número de palabra, el 80% de las veces será reemplazada directamente con [Máscara], el 10% del tiempo para reemplazarlo con cualesquiera otras palabras, el 10% de cuando se va a retener el token originales

  • La razón no es 100% de la máscara
    • Si la sentencia será una Token100% de la máscara, y luego puesta a punto del modelo cuando habrá algunas palabras que no se ve
  • Causas 10% de un contador aleatorio
    • Transformador Para mantener caracterización distribuido de cada token de entrada, de lo contrario el modelo recordará esta [máscara] es la señal 'peluda'
    • Además codificador no sabe qué palabra es predecir cuál es la palabra equivocada, y por lo tanto obligado a aprender una representación simbólica de cada vector
  • Además, debido a que cada batchsize sólo el 15% de la palabra de máscara, el problema es debido a la sobrecarga de rendimiento, encoder bidireccional que sea más lento que una sola formación codificador
Frase siguiente Predicción

MLM es sólo una tarea no es suficiente para resolver la comprensión de lectura frase BERT y otras relaciones tarea de juicio, por lo que añadir un extra de tarea previa a la formación del siguiente secuencia de predicción.

Las tareas específicas de una oración es la tarea determinación relación, es decir, si la sentencia está por debajo de la sentencia A, B, y si es así la salida 'IsNext', de lo contrario la salida 'NotNext'.

El entrenamiento de modo de generación de datos se selecciona aleatoriamente de la corpus paralelo dos palabras consecutivas, dos palabras que conservaba extrae 50%, se encuentran con relación IsNext, el otro 50% de la segunda frase se extrae al azar de la esperada, la cual la relación es NotNext. símbolo Esta relación se almacena en la FIG. 4 [los CLS]

Pero, de hecho, esta tarea es demasiado simple, para el modelo de pre-formación y no ayuda mucho, en un modelo que elimina Roberta

Incorporación de Bert

entrada BERT caracterizado sumando formado a partir de tres Embedding:

  • Token Inclusiones: es decir, capas palabra vector convencionales, el primer carácter de cada muestra de entrada debe ser escrito como [el CLS], que se pueden utilizar en la tarea de clasificación subsiguiente, si dos frases diferentes necesidad de utilizar [la SEP] partición, y el último personajes necesitan [sep] significa el fin de
  • Segmento Inclusiones: como \ ([0, 1] \) secuencia se utiliza para distinguir dos frases tarea NSP tarea fácil de hacer frases de determinación de la relación
  • Inclusiones Posición: la posición del vector del transformador BERT posición diferente vector se entrenó directamente
BERT-WWM
  • Palabra completa de enmascaramiento que enmascaran palabra entera, rompiendo la idea tradicional de la independencia Bert, que entre cada [MÁSCARA] son ​​independientes entre sí. Esto hace que el contexto de la misma palabra en diferentes predicción de caracteres es el mismo, para fortalecer la correlación entre diferentes personajes con una palabra.
La diferencia entre Roberta y Bert
  • parámetros de entrenamiento fueron seleccionados cuidadosamente por el ginseng, más datos de entrenamiento, más entrenamiento Tamaño de lote
  • Siguiente tarea de predicción frase que no es de mucha ayuda, la pérdida de NSP elimina continuamente atraído por la frase de entrada de un documento, cuando se llega al final del documento, además de un separador y luego tomar muestras de la siguiente frase del documento.
  • Máscara Bert corpus será, en la fase de entrenamiento se mantiene sin cambios en el momento de pre-tratamiento; y Roberta de la máscara a una dinámica, de manera que cada vez que los datos leídos no son los mismos (en particular, la copia de datos 10 veces, uniforme azar máscara)
Ernie y Bert diferencia de

Dado que sólo un único carácter de Bert modelo de máscara es fácil de hacer que las características semánticas de bajo nivel extraídos de palabras y frases, y para las entidades de nivel de extracción de información semántica débil. Por lo tanto, el conocimiento externo en la tarea previa a la formación, hay tres niveles de la misión de pre-entrenamiento

  • El enmascaramiento de Nivel Básico: Bert siente ser una máscara de palabra, es difícil de aprender de alto nivel de información semántica;
  • Frase-nivel de enmascaramiento: Introduzca la palabra sigue siendo de nivel, enmascarar la frase continua;
  • Entidad de nivel de enmascaramiento: en primer lugar, el reconocimiento de entidad y las entidades reconocidas máscara.

XLNet

XLNet camino para la codificación y desventajas de la clase de auto-BERT estimación sesgada del modelo de lenguaje codificado lenguaje modelo autorregresivo, se propone un método de pre-formación en idiomas autorregresiva generalizada.

Organizar modelo de lenguaje (Permutación del modelo de lenguaje, PLM)

Mediante la introducción de un modelo de lenguaje de permutación, el modelo de lenguaje deseable de izquierda a derecha cuando el siguiente carácter predicho por el método de autorregresivo, para incluir no sólo la información anterior, sino también información se puede extraer a continuación el carácter correspondiente, y la necesidad de introducir la máscara símbolo.

En primer lugar la reordenación de frases, palabras después del final de la reordenación se puede ver que después de algunas palabras, de acuerdo con los correspondientes objetos de máscara puede ser visto. Sobre la aplicación es decidir qué palabras mediante la adición de la palabra de máscara matriz de Atención que se puede ver que no se ve.

Shuangliu mecanismo de atención (de dos corrientes Auto-atención)

Ya que tenemos múltiples capas de transformador, las palabras necesitan más al final de la proyección en la última capa, tal como una longitud máxima de 512, la última capa sólo es necesario para predecir las 10 últimas palabras, necesitamos toda la información puede ser transmitida a la última palabra de una capa, pero que quieren predecir el final de una palabra, cuando la información no puede ver la palabra, por lo que la introducción de un mecanismo de atención Shuangliu

Consulta de flujo de máscaras de matriz sólo transmite información de ubicación, el orden de predicción que indica qué; contenido flujo constante con transformador convencional, incluyendo la información del contenido y la información de ubicación, para garantizar que toda la información digital se puede transferir a la última capa. Atención Stream es una diferencia sólo radica en si la máscara podía ver a mí mismo, y entrar en una sola información de localización, incluyendo la ubicación y el otro es el contenido de información.

porción de predicción (de predicción parcial)

Si el modelo tras la reordenación de las palabras todas las palabras son difíciles de predecir la convergencia (ver las primeras palabras podría ser el número de palabras es demasiado pequeño), la cantidad de cálculo también es grande. Por lo tanto, sólo el 15% de la predicción final palabra

Transformador-XL

Introduzca las limitaciones de longitud de transformador tradicional en 512, el modelo es un mensaje de texto ya no se puede aprender.

  • mecanismo de recursión Fragmento (mecanismo de recurrencia a nivel de segmento): se refiere a la información oculta es la hora actual en el proceso de cálculo, el uso de estados superficiales oculta en el momento anterior de manera recursiva por la circulación (estados ocultos en el momento anterior se almacenan en el un espacio de almacenamiento temporal), cada uno de los cuales hace uso de la información de contexto longitud de cálculo mayor, aumentando en gran medida la capacidad de capturar información de larga distancia.
  • La codificación de la posición relativa (relativa posicional codificaciones): Después de que los fragmentos usando mecanismo de recursión, la información de posición de los diferentes segmentos de la misma y luego superpuestas juntos, no es apropiado, la posición relativa de este modo se propone una forma alternativa de codificación del codificador de posición absoluta

ALBERT

ALBERT contribución que presenta la tecnología de reducción de dos parámetros modelo, por lo que el modelo al mismo tiempo, reducir el peso de los resultados del modelo no se verá afectada en gran medida.

Incorporación de factorización

Usando una factorización de forma de matriz capa de encaje está comprimido. Simplemente, se asigna primero en un espacio dimensional bajo una sola caliente \ (E \) y, a continuación mapeado desde el espacio dimensional bajo al alto espacio dimensional \ (H \) , es decir, la cantidad de cambio en el parámetro es \ (O (V \ times H) => O (V \ times e + e \ times H) \) , y el documento también demostrado por el experimento, los parámetros de incrustación para reducir el rendimiento de todo el modelo y no se ve afectada significativamente

parámetro compartir Cross-capa

Transformador parámetros de intercambio de múltiples capas, la mejora de los parámetros de utilización, tales parámetros se ha reducido de manera efectiva. (Parámetro de objeto de transformador compartido en parámetros de la capa auto-atención alimentación de avance y de parámetros)

La pérdida de la coherencia entre la sentencia

ALBERT mejoras para la misión de pre-entrenamiento en la tarea de NSP de juzgar la coherencia entre oraciones. NSP única tarea es determinar si los dos segmentos a un tema, la tarea es demasiado simple. La coherencia entre las tareas de juicio frase necesita para determinar si el orden de los dos segmentos invierte, forzando el modelo para aprender segmento semántica, que es más sutil en comparación con la tarea NSP.

Esta serie de artículos es una acción personal de conocimientos para las entrevistas y, si es incorrecto, por favor me corrija, gracias!

Supongo que te gusta

Origin www.cnblogs.com/sandwichnlp/p/12590380.html
Recomendado
Clasificación