Hablar de modelos de lenguaje nuevamente

título:

Los modelos de lenguaje juegan un papel extremadamente importante en las tareas de procesamiento del lenguaje natural. Con lo que todo el mundo está más familiarizado es con el modelo de lenguaje de tipo n-grama. Ya sea tradicional o basado en NN, predice la palabra actual basándose en las primeras N palabras, o Calcula la probabilidad de la palabra actual. Cuando se requiere la probabilidad de la secuencia completa, es necesario atravesar la secuencia y luego realizar la operación de acumulación. De hecho, el modelo de lenguaje del lenguaje natural no se puede jugar así. A continuación se presentan algunos modelos de lenguaje nuevos y se analizan sus aplicaciones.

Nuevo modelo de lenguaje:

método de preentrenamiento de bert:

Tarea 1: LM enmascarado De manera
intuitiva, el equipo de investigación tiene motivos para creer que el modelo bidireccional profundo es más poderoso que la conexión superficial del modelo de izquierda a derecha o el modelo de izquierda a derecha y de derecha a izquierda . Desafortunadamente, el modelo de lenguaje condicional estándar solo se puede entrenar de izquierda a derecha o de derecha a izquierda, porque la acción condicional bidireccional permitirá que cada palabra "se vea a sí misma" en medio de múltiples contextos.

Para entrenar una representación bidireccional profunda, el equipo de investigación adoptó un método simple de enmascarar aleatoriamente algunos de los tokens de entrada y luego predecir solo los tokens que están enmascarados. El artículo se refiere a este proceso como "LM enmascarado" (MLM), aunque a menudo se lo conoce como la tarea Cloze en la literatura (Taylor, 1953).

En este ejemplo, el vector oculto final correspondiente al token enmascarado se ingresa en la salida softmax en el vocabulario, al igual que en el LM estándar. En todos los experimentos del equipo, el 15% de los tokens de WordPiece en cada secuencia se bloquearon aleatoriamente. En contraste con la eliminación de ruido de los codificadores automáticos (Vincent et al., 2008), solo se predicen las palabras enmascaradas en lugar de reconstruir toda la entrada.

Aunque esto permite que el equipo obtenga un modelo preentrenado de dos vías, este enfoque tiene dos desventajas. En primer lugar, existe un desajuste entre el preentrenamiento y el ajuste fino porque el token [MASK] nunca se ve durante el ajuste fino. Para resolver este problema, el equipo no siempre reemplaza la palabra "enmascarada" con el token [MASK] real. En cambio, el generador de datos de entrenamiento selecciona al azar el 15% de los tokens. Por ejemplo, en la oración "mi perro es peludo", la ficha que elige es "peludo". Luego, realice el siguiente proceso:

El generador de datos hará lo siguiente en lugar de reemplazar siempre la palabra seleccionada con [MASK]:

80% del tiempo: reemplace la palabra con la etiqueta [MASK], por ejemplo, mi perro es peludo → mi perro es [MASK]
10% del tiempo: reemplace la palabra con una palabra al azar, por ejemplo , mi perro es peludo → mi perro es Apple el
10% de las veces: no cambie la palabra, por ejemplo, mi perro es peludo → mi perro es peludo. El propósito de esto es sesgar la representación hacia la palabra real observada.
El codificador Transformer no sabe qué palabras se le pedirá que prediga o qué palabras han sido reemplazadas por palabras aleatorias, por lo que se ve obligado a mantener una representación contextual distribuida de cada token de entrada. Además, debido a que el reemplazo aleatorio solo ocurre en el 1.5% de todos los tokens (es decir, el 10% del 15%), esto no parece dañar la comprensión del lenguaje del modelo.

La segunda desventaja de usar MLM es que cada lote solo predice el 15% de los tokens, lo que indica que el modelo puede requerir más pasos de preentrenamiento para converger. El equipo demostró que la velocidad de convergencia de MLM es ligeramente más lenta que el modelo de izquierda a derecha (prediciendo cada token), pero la mejora experimental del modelo MLM supera con creces el aumento del costo de entrenamiento.

Tarea 2: predicción de la siguiente oración

Muchas tareas importantes posteriores, como la respuesta a preguntas (QA) y la inferencia del lenguaje natural (NLI), se basan en la comprensión de la relación entre dos oraciones, que no se obtiene directamente a través del modelado del lenguaje.

Para entrenar una relación modelo para la comprensión de oraciones, se pre-entrena una tarea de prueba de la siguiente oración binaria, que puede generarse a partir de cualquier corpus monolingüe. Específicamente, cuando las oraciones A y B se seleccionan como muestras previas al entrenamiento, es probable que B sea la siguiente oración de A en un 50%, y es probable que el 50% sea una oración aleatoria del corpus. P.ej:

Entrada = [CLS] el hombre fue a la tienda [MASK] [SEP]

compró un galón de leche [MASK] [SEP]

Etiqueta = IsNext

Entrada = [CLS] el hombre [MASK] a la tienda [SEP]

pingüino [MASK] están volando ## menos pájaros [SEP]

Etiqueta = NotNext

El equipo eligió oraciones NotNext completamente al azar, y el modelo final pre-entrenado logró una precisión del 97% al 98% en esta tarea.
Obtenido de: https://blog.csdn.net/qq_39521554/article/details/83062188

Introducción al modelo ELMo

ELMo es un nuevo tipo de representación de palabras contextualizada profunda, que puede modelar características complejas (como sintaxis y semántica) de palabras y los cambios de palabras en el contexto del lenguaje (es decir, modelar palabras polisémicas). Nuestro vector de palabras es una función del estado interno del modelo de lenguaje bidireccional profundo (biLM), previamente entrenado en un gran corpus de texto.
Cuando se trata de vectores de palabras, definitivamente pensaremos en word2vec, porque el concepto de vector de palabras propuesto en él ha traído una gran mejora al desarrollo de la PNL. El método principal de ELMo es entrenar primero un modelo de lenguaje completo y luego usar este modelo de lenguaje para procesar el texto que necesita ser entrenado y generar el vector de palabra correspondiente. Por lo tanto, se ha enfatizado en el texto que el modelo de ELMo puede generar la misma palabra en diferentes oraciones Diferentes palabras vector.
Utilizan un modelo de lenguaje LSTM bidireccional, que consiste en un modelo de lenguaje hacia adelante y hacia atrás, cuya función objetivo es tomar la máxima probabilidad del modelo de lenguaje en estas dos direcciones.
(1) La suposición de ELMo es que el vector de palabra de una palabra no debe ser fijo, por lo que el efecto de ELMo debe ser mejor que word2vec en términos de múltiples significados de una palabra.
El proceso del vector de palabras de aprendizaje de word2vec consiste en aprender a través de las ventanas superior e inferior de la palabra central, el rango de aprendizaje es demasiado pequeño y ELMo aprende de todo el corpus al aprender el modelo de lenguaje, y luego el vector de palabras generado por el lenguaje modelo Equivale a un vector de palabras aprendido en base a todo el corpus, que representa con mayor precisión el significado de una palabra.
(2) Otra ventaja de ELMo es que cuando construye un modelo de lenguaje, puede usar un gran corpus sin tareas para aprender. Una vez que se ha aprendido, se puede aplicar a problemas similares en paralelo.
Obtenido de: https://www.cnblogs.com/huangyc/p/9860430.html

solicitud

Los anteriores son en realidad métodos de entrenamiento de modelos de lenguaje, y el modelo de lenguaje previamente entrenado también se carga durante la aplicación y luego se aplica a la codificación semántica del texto. A continuación, analizaremos dos aspectos de la generación de texto NER y texto VAE.

Supongo que te gusta

Origin blog.csdn.net/cyinfi/article/details/91377231
Recomendado
Clasificación