[Li Hongyi | Aprendizaje profundo] Mecanismo de autoatención (Autoatención)

Escriba aquí el título del directorio

introducción

En los problemas de aprendizaje profundo que hemos encontrado en el pasado, la entrada a la red neuronal es generalmente un vector y la salida puede ser una categoría. Si aumenta la complejidad de la entrada, por ejemplo, se ingresan múltiples vectores, o la cantidad de vectores ingresados cada vez cambiará. Por ejemplo, en el procesamiento de textos, si cada palabra de una oración se considera como un vector, entonces una entrada tendrá múltiples vectores y, debido a que las longitudes de las oraciones de diferentes muestras son diferentes, el número de vectores ingresados cada vez también será diferente. cambió.

Entonces, ¿cuál será el resultado?
La primera posibilidad es que cada vector de entrada corresponda a una salida, y las longitudes de entrada y salida sean las mismas. Por ejemplo, ingrese una oración y deje que la máquina determine la parte gramatical de cada palabra en la oración, entonces la longitud de la entrada y la salida serán la misma.
El segundo caso es que solo es necesario generar una etiqueta. Por ejemplo, análisis de sentimiento de texto, ingrese una oración y deje que la máquina juzgue si la oración es positiva o negativa, etc.
La tercera situación es que no se sabe cuánta producción se requiere y la propia máquina determina la cantidad de producción. Por ejemplo, en la traducción automática, la entrada y la salida están en diferentes idiomas.

Este artículo presenta principalmente la solución a la primera situación, que también se llama Etiquetado de secuencia .

Etiquetado de secuencia

Si desea ingresar múltiples vectores y generar la misma cantidad de etiquetas, una solución es FC (una red neuronal completamente conectada), que ejecuta FC una vez para cada vector y luego genera la etiqueta correspondiente.
Insertar descripción de la imagen aquí
Pero hacerlo tiene grandes inconvenientes. Por ejemplo, en el ejemplo de determinación de parte del discurso, tomamos una oración como entrada, y una oración consta de varias palabras, cada palabra tiene su vector correspondiente (hay dos formas de generar vectores, codificación one-hot e incrustación de palabras ). Dejamos que cada palabra pase por FC una vez para obtener su parte gramatical correspondiente. Pero en el ejemplo anterior, las dos sierras en una oración tienen diferentes partes del discurso, pero no hay ninguna razón por la cual las salidas obtenidas a través de la misma red sean diferentes, porque los vectores de entrada son exactamente iguales.

Luego puedes considerar la información contextual de esta oración y tener en cuenta las palabras adyacentes de una palabra. Ingrese los vectores dentro de la ventana uno a la vez.
Insertar descripción de la imagen aquí
Sin embargo, este método todavía tiene desventajas: si tenemos una tarea, no se puede resolver considerando una ventana, sino considerando la oración completa. Entonces, ¿está bien configurar la ventana a la longitud de una oración? Evidentemente no, porque como decíamos al principio, la longitud de cada muestra de entrada es variable. Entonces, ¿está bien configurar la ventana con la longitud de la muestra más larga entre todas las entradas de muestra? Parece posible, pero hacerlo requerirá aprender demasiados parámetros, lo que puede provocar un sobreajuste. Entonces ¿cuál es la solución? Esto requiere el uso del mecanismo de autoatención presentado en este artículo .

Autoatención

¿Cómo se aplica la Autoatención? Primero, todos los vectores de la oración completa deben pasarse por la atención propia: se ingresan varios vectores y se emiten varios vectores. El vector de salida resultante tiene en cuenta toda la información contextual de la oración completa. Luego, se utiliza como entrada el vector que considera la información completa de la oración y se realiza FC para obtener la etiqueta de salida correspondiente.
Insertar descripción de la imagen aquí
¿Cómo funciona la autoatención?
En primer lugar, la entrada de la autoatención son múltiples vectores, que pueden ser la entrada de una red neuronal completa o la salida de una capa oculta, por lo que aquí se usa aa $a$ para representar la entrada. El vector de salida es $representado por b$ , cada $b$ toma todogenerado por $un .$ A continuación presentamosCómo se genera $b$ $b^1$ como ejemplo.
Insertar descripción de la imagen aquí
Primero tenemos que usar $a^1$ la oración completa que neutraliza $a^1$ otros vectores relacionados. Cada vector asociado suma $a^1$ El grado de correlación de $^{1}$ $\alpha$ para representar $α .$

Entonces, ¿cómo encontramos los otros vectores y $a^1 ?$ ¿Cuál es la correlación entre $^{1 ?}$ Usamos el método de cálculo del producto escalar para obtener $\alpha$ . Tome dos vectores como entrada, multiplíquelos por una matriz respectivamente y obtenga dos nuevas matrices $q y k$ , entonces $Haga el producto interno de q y k$ y el valor obtenido es $\alpha$ .
Insertar descripción de la imagen aquí
Así que ahora convertimos esto para obtener $\alpha$ se aplica a nuestra autoatención. por $un ^ 1$ , necesitamos compararlo con $a^2$ $un^3$ $un^4$ Calcula la correlación. Primero $un^1$ veces $W^q$ obtiene $q^1$ vector, $q^1$ tiene un nombre llamado consulta. Siguiente $un^2$ $un^3$ $un^4$ debe multiplicarse por $W^k$ obtienevector $k$ $k$ tiene un nombre llamado clave. $Haz el producto interno de q y k$ para obtener $a lp ha$ ， $un lp ha$ también se llamapuntuación de atención. ${\alpha}_{1,2}$ significa $a^1$ suma $a^2$ puntuación de atención entre $^{2 .}$
Insertar descripción de la imagen aquí
En la práctica, $a^1$ también necesita calcular la correlación consigo mismo y también calcular $a^1$ veces $W^k$ obtiene $k^1$ y luego calcule su propia correlación.

Calcular $a^1$ Después de la correlación entre $^{1}$ y todos los vectores, luego haga un soft-maxpara obtener $\alpha'$ 。

Entonces usamos $\alpha'$ Extrae la información importante de esta frase. Primero multiplicamos cada vector de entrada por una matriz $W^v$ obtiene el nuevo vector $v$ , y luego para cada $v$ veces el correspondiente $\alpha'$ Sumados obtenemos el vector $b_1$ .
Insertar descripción de la imagen aquí
Según la introducción anterior, imaginaremos que si $a^1$ suma $a^2$ La correlación de $^{2}$ ${\alpha}_{1,2}^{'}$ El valor obtenido es relativamente grande, entonces el valor final obtenido es $b^1$ puede estar más cerca de $a^2$ .

Multiplicación de matrices

Ahora echemos un vistazo a cómo funciona la autoatención desde la perspectiva de la multiplicación de matrices.

El primer paso es usar $Tome q$ como ejemplo, porque cada $a^i$ se multiplica por una matriz para obtener el $q^i$ ， $q^{i}=W^{q}a^i$ . Yo soy $a^i$ está concatenado y visto como una matriz $I$ , Cuadrado $Cada columna de I$ es cada entrada de autoatención, y luego para $Salí$ multiplicado por la matriz $W^q$ , obtenga la matriz $Q$ ,Cada columna de $Q$ $qiq^i$ . De la misma manera podemos obtener $k, V._$ _
Insertar descripción de la imagen aquí
El segundo paso es calcular la puntuación de atención. Ponemos $k^i$ concatenado para formar una matriz $K^T$ , cada $k^i$ se trata como una fila de esta matriz y luego se multiplica por la matriz $q^1$ , obtienes una matriz, cada fila de esta matriz es $a^1$ por cada puntuación de atención asociada a ella.
Insertar descripción de la imagen aquí
De la misma manera, $a^2,a^3,a^4$ también necesita calcular el puntaje de atención, ponemos $q^i$ se trata como una columna de una matriz y se concatena en una matriz $Q.$ QQ $Q$ dejada por $K^T$ obtiene la puntuación de atención de todos los vectores de entrada, expresada como la matriz $Un$ _Haga soft-max para cada columna de $A.$
Insertar descripción de la imagen aquí
En el tercer paso, calculamos la salida. Ponemos $v^i$ empalmado para formar la matriz $V$ , luego multiplica por la matriz $A^{'}$ , obtiene la matriz de salida $O._$ _

En resumen, el mecanismo operativo de la autoatención es en realidad una serie de multiplicaciones de matrices. En esta serie de matrices, solo hay matrices $W^{q}, W^{k}, W^{v}$ es desconocido y es un parámetro que debe aprenderse mediante entrenamiento.
Insertar descripción de la imagen aquí

Autoatención de múltiples cabezales (mecanismo de atención de múltiples cabezales)

Tomando 2 cabezas como ejemplo, primero coloque el vector de entrada $a$ multiplicado por una matriz da $q$ , entonces $Multiplicar q$ por dos matrices diferentes da dos $q$ , estos dos $q$ se utiliza para representar dos correlaciones diferentes. $Hay dos qs$ , correspondientes aTambién hay dos $k$ $y$ $v .$ Luego calcule respectivamente $b^{i,1}, b^{i,2}$ .
Insertar descripción de la imagen aquí
agarrarbi $b^{i,1},b^{i,2}$ se concatenan y se multiplican por una matriz para obtener $b^i$ .