Pre-entrenamiento del modelo Resumen: XLNet \ Transformador-xl \ Bert \ GPT \ Elmo


1 modelo de lenguaje

modelo autorregresivo 1.1 lengua AR--

Representantes: GPT, Elmo

Para una secuencia dada x = [x1, ⋯, xT ], modelo de lenguaje autorregresivo dedicada a la secuencia de la estimación de distribución de probabilidad . Específicamente, utilizando la fórmula de multiplicación función de probabilidad para la descomposición de la secuencia original, puede ser entrenada previamente máxima verosimilitud.

Eliminación de ruido de 1,2 AE-- codificación de modelo de lenguaje (eliminación de ruido auto-codificación)

Representantes: Bert

desventajas :

  1. supuesto de independencia (hipótesis de la independencia). No utilice la fórmula de multiplicación . BERT predijo todas MASKsímbolo son independientes bajo la condición de no enmascarar la secuencia y xlnet piensan que están relacionados.

  2. desajuste pretrain-Finetune (Discrepancia)

1.3 PLM --- modelo de lenguaje para

Revueltos usando una secuencia modelo de lenguaje de ordenar todo lo posible para construir un modelo de lenguaje AR.

En teoría, si el molde secuencia de tipo en todos los parámetros compartida, entonces el modelo puede aprender a información de contexto a cobro revertido de todas las posiciones. El modelo de lenguaje fuera de orden, dijo:
Aquí Insertar imagen Descripción
fuera del modelo de lenguaje para el uso de una ubicación original codificador de posición , en lugar de ajustar el orden de la frase original, gracias al mecanismo de máscara transformador de lograr.

ventajas :

  1. Captura de información en ambos sentidos (ventaja AE)

  2. Naturalmente evita el supuesto de independencia, el problema de falta de coincidencia pretrain-Finetune. (Ventajas AR, desventajas AE)

  3. Parámetros del modelo se comparte entre todos secuencia

2 XLNet

XLNet es complejo Bert, GPT 2.0 y transformador XL encarnaciones.

  • Es a través de los objetivos de formación pre-PLM, absorbida de Bert modelo de lenguaje de doble sentido ;

  • El núcleo GPT2.0 realidad previa a la capacitación de datos más alta calidad , lo que evidentemente también XLNet absorbido entró;

  • Transformador XL para resolver Transformador para documentos largos aplicaciones de PNL problemas hostiles.

beneficios XLNET
  • En combinación con las ventajas de la AE, PLM llegar de dos vías (nivel simbólico tarea como RC \ control de calidad es muy importante) información semántica
  • AR combinar las ventajas de entrada sin enmascarar, para resolver el desajuste pretrain-Finetune
  • La distribución de probabilidad de las secuencias puede ser modelado para evitar el supuesto de independencia
  • Explora las distancias más largas (uso de transformador-XL)
la innovación XLNet
  • PLM (modelo de lenguaje complementaria y doble)

  • Flujo de Auto-atención-DOS (PLM y complementaria)

    flujo de contenido, corriente de consulta (Bert correspondiente a la maskmarca)

    El núcleo es un Representaciones objetivo Aware , la introducción de Z objetivo posición T

  • modelo de Transformer-xl se introduce (en lo sucesivo TXL)

    • mecanismo segmento recurrencia

    • codificación de posición relativa

solicitud
  • En el RC, mejoró significativamente, especialmente en documentos largos RC actualicen genial!

  • La generación de una tarea, la secuencia AR aguas abajo de las tareas de cumplimiento nativas, como el resumen de texto, la traducción automática, recuperación de información

Antes de la Capacitación

  • Como entrada y BERT segmento DOS datos del formato :[CLS, A, SEP, B, SEP]

    El segmento de dos como PLM secuencia de carreras, NSP es inútil hacer predicción

  • modelo PLM idioma ; dos auto-Stream Atención ; predicción locales , parámetro súperK

  • La introducción del transformador-xl

    relativa codificación posicional (tal como una secuencia que codifica una posición en la que la posición ZT)

    mecanismo segmento recurrencia

sintonia FINA

  • Y Bert de entrada como el formato de datos de dos segmentos:[CLS, A, SEP, B, SEP]

  • Retire la corriente consulta

  • codificaciones segmento relativos

    segmentos múltiples, con referencia a las codificaciones relativos Transformador-XL, que codifican para los segmentos de posición relativa.

  • predicción basada en el tamaño

Algunos métodos experimentales

  • bidireccional de datos
  • predicción basada en el tamaño
  • NSP

La codificación de la posición relativa de los dos tipos de

  1. Para la secuencia de entrada de codificación de posición relativa de relativamente codifica txl

  2. Haciendo referencia TXL, relativa a una pluralidad de segmentos codificados, es decir, codificaciones segmento relativos

    Esto hace que sea segmentos de entrada posible muitiple

Transformador 3-xl

Innovación (tanto complementaria arriba)

  • mecanismo de recurrencia-nivel de segmento
  • codificación de posición relativa

ventaja

  1. Captura de la dependencia a largo plazo
  2. La solución de los desechos contexto (hay dependencias entre los clips permite resolver la fragmentación del contexto )
  3. Aprender más de longitud fija (Bert 512)

mecanismo de recurrencia 3,1-nivel de segmento

Aquí Insertar imagen Descripción
El segmento frontal está fijo y el estado oculto almacena en caché, como un segmento de memoria a la siguiente, a fin de ser utilizado como contexto extendida.

ventajas:

  • Cuando la evaluación será más rápido, porque se puede tomar una representación directa de los segmentos anteriores a su uso, por lo que no bloquee cada txl ab initio
  • En teoría, puede ser almacenado en caché mucho

3.2 codificación de posición relativa

ventaja

  • Sencillo y eficaz, el tiempo no causa confusión, diferente importancia de cada segmento

  • Tanto para capturar las dependencias de larga distancia, sino también para aprovechar la dependencia de corto alcance

    TXL se convirtió en el primer modelo de ciclo de auto-atención, mientras que la red neuronal más allá de un nivel de carácter y las tareas de nivel de vocabulario.

núcleo
Aquí Insertar imagen Descripción

4 Bert

Fase 1: modelo de lenguaje
  • Antes de la Capacitación
    • extracción de características es un transformador
    • Introduzca un período de tres incrustación: token \ segmento \ incrustaciones de posición, [CLS] es muy importante
  • modelo de lenguaje bidireccional (DAE)
  • Tareas, dos tipos de aprendizaje no supervisado
    • MaskedLM (CBOW haber pensado, la tarea de estilo colze, palabras para ser predichos sacan)
    • NSP (esto las relaciones de frases, frase coincide con el tipo de tarea, es conveniente RC \ QA)
Etapa 2: poner a punto

bert principios aplicables

  1. Idioma contiene respuestas, tales como control de calidad \ RC
  2. tarea de igualación frase / párrafo
  3. características semánticas profundas aplicables de la tarea
  4. tareas / a nivel de frase del párrafo (PNL mala documentos de nivel, que es más adecuado para la tarea no es demasiado largo)

5 GPT

  • Etapa 1: pre-formados modelo de lenguaje

    • extractor de características: Transformador
    • unidireccional
  • Etapa 2: poner a punto

6 Elmo

  • Fase 1: modelo de lenguaje

    • Aprender: posición de la palabra, la incrustación semántica que, correspondiente significado, sintaxis, semántica

    • unidireccional

  • Etapa 2: Pre-base de Feature- entrenado

7 Otros

2 métodos 7,1 migración

  • función de base

    Los parámetros del modelo como un suplemento pre-entrenamiento cuenta con tareas específicas, la estructura del modelo de dos etapas puede ser diferente

    Para el tipo de secuencia de anotación de la tarea, la fusión característica es más adecuado para escenario de aplicación de varias capas, algunas de fusión será más detallada

  • sintonia FINA

    Las tareas específicas afinar, la estructura del modelo de dos etapas similar a

    Este problema sentencias de control de calidad a juego, afinar mejor que en funciones de base;

    afinar la forma en que algunas puertas, como menos datos, a continuación, se puede encontrar una tarea de datos similares a afinar, de manera por etapas (mejora de los datos)

7.2 fragmentario

  • tarea de rellenar huecos puede mejorar la robustez del texto generado

  • La manera de distinguir entre oraciones

    Separador, la incorporación frase añadida sentencia número,

  • QA contra RC

    QA menos dependiente del contexto, tiende a texto corto; RC gama dependiente mayor contexto;

Sobre el 7,3 MÁSCARA

Aquí Insertar imagen Descripción
Se muestra en la figura máscara de una vía modelo de lenguaje , lo que demuestra que un triangular inferior. Atención hecho cada fila de la matriz representa una salida, y cada columna representa la entrada, mientras que significa asociado con salida de la matriz de atención y de entrada.

XLNet está fuera del modelo de lenguaje fin, es lo mismo con el modelo de lenguaje, estamos haciendo la probabilidad condicional de descomposición, pero la descomposición del orden a partir del modelo de lenguaje orden es aleatorio:
Aquí Insertar imagen Descripción
cualquier tipo de "orden de aparición" es posible. En principio, cada uno de los cuales corresponde a una orden del modelo, por lo que, en principio, no existe n!un modelo de lenguaje. modelo basado en el transformador, puede ordenar todos estos tienen que hacer un modelo!

Para "Beijing le da la bienvenida" para generar, por ejemplo, supongamos que una secuencia generada aleatoriamente como ** "<s> → → bienvenida Beijing → → → que Huan Norte → <e>" **, entonces sólo necesita la siguiente figura en el segundo sub-figura una forma de máscara matriz Atención, puede alcanzar sus objetivos: el
Aquí Insertar imagen Descripción
punto de vista intuitivo, esto parece la forma triangular inferior de una sola vía modelo de lenguaje máscara "trastorno" de la.

H [theta] (X la Z <T ) no depende de la información de posición del contenido que se predijo, basándose en la secuencia de descomposición revueltos de modelos de lenguaje se ha mencionado anteriormente son al azar, no importa donde la posición de destino previsto, para dar la factorización de todos los casos es el mismo , y el peso del transformador para diferentes situaciones son lo mismo, así que no importa cómo cambian la ubicación de destino se puede obtener la misma distribución de resultados , es necesario modificar la fórmula para predecir la distribución de nueva manera, es decir, la introducción de la posición de destino Z T , reparametrizar:
Aquí Insertar imagen Descripción

Publicado 63 artículos originales · elogios ganado 13 · Vistas a 40000 +

Supongo que te gusta

Origin blog.csdn.net/changreal/article/details/104644202
Recomendado
Clasificación