Procesamiento del lenguaje natural desde la entrada hasta la aplicación: preentrenamiento dinámico de vectores de palabras: modelo de lenguaje bidireccional

Categoría: Catálogo General de "Procesamiento del Lenguaje Natural desde la Entrada hasta la Aplicación"

Para un texto de entrada dado $w_1w_2\cdots w_n$ , el modelo de lenguaje bidireccional construye el modelo de lenguaje simultáneamente desde las direcciones hacia adelante (de izquierda a derecha) y hacia atrás (de derecha a izquierda). La ventaja de esto es que para cualquier palabra $w_t en el texto$ , las representaciones basadas en la información de contexto izquierda y la información de contexto derecha respectivamente pueden obtenerse al mismo tiempo. Específicamente, el modelo primero codifica cada palabra individualmente. Este proceso es independiente del contexto y utiliza principalmente la información de la secuencia de caracteres dentro de la palabra. Basado en la secuencia de representación de palabras codificadas, el modelo utiliza dos redes de memoria a corto plazo (LSTM) de múltiples capas en diferentes direcciones para calcular las representaciones de las palabras en capas ocultas hacia adelante y hacia atrás en cada momento, es decir, la función dependiente del contexto. representación vectorial de palabras. Utilizando esta representación, el modelo predice la palabra objetivo en cada momento. Para el modelo de lenguaje directo, La palabra objetivo en el momento $t$ $w_{t+1}$ , para el modelo de lenguaje inverso, la palabra objetivo es $w_{t-1}$ 。

capa de presentación de entrada

El modelo ELMo utiliza una red neuronal basada en una combinación de caracteres para representar cada palabra en el texto de entrada, con el fin de reducir el impacto de la falta de vocabulario (OOV) en el modelo. La siguiente figura muestra la estructura básica de la capa de representación de entrada. En primer lugar, la capa de vector de caracteres convierte cada carácter de la capa de entrada (con caracteres de inicio y finalización adicionales) en una representación vectorial. Supongamos $w_t$ De la secuencia de caracteres $c_1c_2\cdots c_l$ $c_i$ en él $C$ , se puede expresar como: $v_{c_i}=E^{\text{char}}e_{c_i}$ 。其中， $E^{\text{char}}\in R^{d^{\text{char}}\times |V^{\text{char}}| }$ representa una matriz vectorial de caracteres; $V^{\text{char}}$ representa todos los conjuntos de caracteres; $d^{\text{char}}$ representa la dimensión del vector de caracteres; $e_{c_i}$ Indica el caracter $c_i$ codificación one-hot de . recuerda $w_t$ La matriz compuesta por todos los vectores de caracteres en es $C_t\in R^{d^{\text{char}}\times l}$ ，即 $C_t=[v_{c_1}, v_{c_2}, \cdots, v_{c_l}]$ . A continuación, utilice la red neuronal convolucional para realizar la composición semántica (Composición semántica) en la secuencia de representación vectorial a nivel de carácter. Aquí se usa una red neuronal convolucional unidimensional, y la dimensión del vector de caracteres $d^{\text{char}}$ se usa como el número de canales de entrada, registrado como $N^{\text{en}}$ , la dimensión del vector de salida se usa como el número de canales de salida, registrados como $N^{\text{out}}$ _ Además, mediante el uso de múltiples núcleos de convolución de diferentes tamaños (anchos), se puede utilizar información de contexto a nivel de carácter de diferentes granularidades y se pueden obtener las representaciones de vectores de capa oculta correspondientes.Las dimensiones de estos vectores de capa oculta corresponden a cada núcleo de convolución. Se determina el número de canales de salida. Al empalmar estos vectores, se obtiene la salida de convolución de cada posición. Luego, los vectores de salida de todas las posiciones de la capa oculta se agrupan para obtener la palabra $w_t$ La representación vectorial de longitud fija de , denotada como $f_t$ . Suponiendo que se utilizan 7 núcleos de convolución unidimensionales con anchos {1, 2, 3, 4, 5, 6, 7}, los canales de salida correspondientes son {32, 32, 64, 128, 256, 512, 1024}, entonces el vector de salida $f_t$ tiene una dimensión de 2048. Diagrama esquemático de la capa de representación de entrada basada en la red neuronal convolucional de caracteres y la red neuronal Highway Luego, el modelo utiliza una red neuronal Highway de dos capas para transformar aún más la salida de la red neuronal convolucional para obtener la representación vectorial de palabra final $x_t$ . La red neuronal Highway establece directamente un "canal" entre la entrada y la salida, de modo que la capa de salida pueda transmitir directamente el gradiente de regreso a la capa de entrada, evitando así el problema de la explosión o dispersión del gradiente causado por demasiadas capas de red. El método de cálculo específico de la red neuronal Highway de una sola capa es el siguiente:
$x_t=g\odot f_t+(1 - g)\odot\text {ReLU}(Wf_t +b)$

donde $g$ es el vector de activación, que es $f_t$ Como entrada, se calcula mediante la función sigmoidea después de la transformación lineal:
$g=\sigma(W^gf_t+b^g)$

En la fórmula, $W^g$ y $b^g$ es la matriz de transformación lineal y el vector de sesgo en la red de activación. Se puede ver que la salida de la red neuronal Highway es en realidad el resultado de la interpolación lineal entre la capa de entrada y la capa oculta. Por supuesto, la estructura del modelo generalmente se ajusta y determina de acuerdo con el experimento, y también podemos probar otras estructuras modelo por nosotros mismos. Por ejemplo, una secuencia de cadenas dentro de una palabra se puede codificar mediante una red LSTM bidireccional a nivel de caracteres. A continuación, sobre la base de los vectores de palabras libres de contexto obtenidos por el proceso anterior, la información de contexto hacia adelante y hacia atrás se codifica por separado utilizando el modelo de lenguaje bidireccional, para obtener la representación dinámica del vector de palabras en cada momento.

modelo de lenguaje directo

En el modelo de lenguaje directo, la predicción de la palabra objetivo en cualquier momento solo depende de la información del contexto o la historia en el lado izquierdo del momento. Aquí usamos un modelo de lenguaje de red de memoria a corto plazo basado en el apilamiento de múltiples capas. Registre los parámetros del LSTM apilado multicapa en el modelo como $\overrightarrow{\theta}^\text{LSTM}$ , los parámetros de la capa de salida de Softmax se registran como $\theta^\text{out}$ _ Entonces, el modelo se puede expresar como:
$p(w_1w_2\cdots w_n)=\ prod_{ t=1}^nP(w_t|x_{1:t-1}; \overrightarrow{\theta}^\text{LSTM}; \theta^\text{out})$

modelo de lenguaje inverso

A diferencia del modelo de lenguaje hacia adelante, el modelo de lenguaje hacia atrás solo considera la información de contexto a la derecha en un momento determinado. Se puede expresar como:
$p(w_1w_2\cdots w_n)=\prod_{t= 1 }^nP(w_t|x_{t+1:n}; \overleftarrow{\theta}^\text{LSTM}; \theta^\text{fuera})$

Referencias:
[1] Che Wanxiang, Cui Yiming, Guo Jiang. Procesamiento del lenguaje natural: un método basado en el modelo de entrenamiento previo [M]. Electronic Industry Press, 2021. [2] Shao Hao, Liu Yifeng. Modelo de lenguaje de entrenamiento
previo [M] ]. Electronic Industry Press, 2021.
[3] He Han. Introducción al procesamiento del lenguaje natural [M]. People's Posts and Telecommunications Press, 2019 [ 4]
Sudharsan Ravichandiran. BERT Basic Tutorial: Transformer Large Model Combat [M] Sociedad editorial de correos y telecomunicaciones del pueblo, 2023
[5] Wu Maogui, Wang Hongxing. Integración simple: análisis de principios y práctica de aplicación [M]. Prensa de la industria de maquinaria, 2021.