Mecanismo de Atención del Transformador-01

Después de leer la serie de artículos posteriores a Transformer, aquí hay algunas preguntas después de leer el artículo: 

Pregunta 1: La diferencia entre el mecanismo de atención y la conexión completa:

¿Cuál es la diferencia entre la atención y las capas totalmente conectadas en el aprendizaje profundo? - saber casi

i El mecanismo de atención puede usar la información de características de la entrada para determinar qué partes son más importantes

ii La importancia del mecanismo de atención es que se introduce la función de peso f, de modo que el peso está relacionado con la entrada, evitando así el problema del peso fijo en la capa totalmente conectada.

Para secuencias de longitud variable, los criterios de selección para calcular la atención evitan los cambios naturales en la información provocados por la longitud, pero tienen cierto énfasis y estándares.

Pregunta 2: Cómo entender la capa de atención:

La explicación en el libro de keras del mecanismo de atención parece ser más clásica:

El primer paso de Atención: el cálculo de la distribución de la atención puede entenderse como el cálculo de la similitud entre la variable de consulta consulta y las palabras circundantes (el modelo de lenguaje es calcular el producto de incrustación), y el segundo paso puede entenderse como el cálculo de la suma de todos los vectores de palabras en la oración, es decir, el vector de resultado es el resultado de combinar la consulta variable de consulta con el texto circundante.

El proceso de cálculo de ATENCIÓN se entiende como: 1. Calcular puntuaciones de relevancia entre el vector como "estación" y cualquier otra palabra en la oración;

2, para calcular la suma de todos los vectores de palabras en la oración, el vector resultante es nuestra nueva representación de "estación": una representación que incorpora el contexto circundante.

Repetirías este proceso para cada palabra de la oración, produciendo una nueva secuencia de vectores que codifican la oración.

Pregunta 3: Atención de pares clave-valor, cómo seleccionar pares clave-valor

    La idea de la atención del par clave-valor proviene del sistema de recomendación, que necesita reorganizar los resultados según la situación de la consulta. La idea de la atención al estilo Transformer también es así, extrayendo la información exacta en la secuencia según la consulta. Simplemente hace coincidir la consulta con las claves y luego devuelve una
suma ponderada de valores. A partir de esto, podemos saber que:

En el problema de traducción, el problema debe ser la secuencia de destino y la secuencia de origen serán las claves y los valores.

En los problemas de clasificación, la consulta, las claves y los valores son todos iguales, porque queremos compararnos con los elementos que nos rodean y abstraer el resultado a través de la oración misma.

Pregunta 4: Cómo entender la atención de múltiples cabezas:

             La idea adoptada por la atención de múltiples cabezas es similar a la idea de convolución. La atención de múltiples cabezas puede realizar el aprendizaje de características relacionadas con tokens de diferentes grupos, para lograr una convolución similar: aprender pares de características independientes de diferentes subespacios.

Supongo que te gusta

Origin blog.csdn.net/qq_30330061/article/details/127807754
Recomendado
Clasificación