Comprensión de la atención en Transformer

Tengo una nueva idea al aprender la atención en Transformer. Grabémoslo aquí. Primero, echemos un vistazo al proceso de cálculo de la atención en Transformer. Como se muestra abajo.
estilo audaz

El proceso anterior es en realidad el proceso de cálculo de ejecutar la siguiente fórmula.

inserte la descripción de la imagen aquí
Entonces, ¿cómo entender este Q, K, V?
Tomemos las compras como ejemplo para comprender el significado de Q, K y V, y migrarlos a la detección de objetivos.
Q es la condición de búsqueda y K es el atributo característico. Por ejemplo, algunos K se centran en el precio bajo, algunos K se centran en la calidad y algunos K se centran en el diseño. V es un valor específico del atributo característico representado por
K.
Cuando buscamos, debemos mirar la correlación entre las condiciones de recuperación y los atributos, y el cálculo de la correlación en la matriz se realiza mediante la multiplicación de puntos.
Dividir por dk hace que este valor sea más pequeño y más fácil de calcular.
Luego use softmax para realizar una normalización y una relación de atributos para cuantificar la correlación. (La figura anterior es un ejemplo, K1 está más en línea con nuestra descripción esperada, por lo que su valor será mayor)
A continuación, multiplique por V para ver cuál es el valor específico de los atributos descritos por diferentes K, es decir, para calcular lo que debemos hacer en el futuro Cuánta atención se debe prestar a este grupo de K y V. Se puede ver que el aumento de la atención es el resultado de los esfuerzos conjuntos de Q, K y V.
Para Q, si quiere encontrar lo que busca más rápidamente, entonces Q necesita seguir aclarando sus condiciones de búsqueda.
Y K, V se refiere a una característica de atributo. Para que se noten (en una época, los valores de características de K, V construidos por el codificador no cambiarán, pero si observa varias épocas, también lo harán). Permítete desaparecer gradualmente tus atributos irrelevantes para hacerte más perspicaz. De esta manera, cuando compre la próxima vez, debido a la existencia de atención, Q irá directamente a K para conocer más descripciones de funciones, y la descripción de Q será más clara y las condiciones serán más estrictas.

Ampliando el campo de detección de objetivos, Q es el objeto que estás buscando. Al principio, Q1 dijo que estaba buscando un caballo, K1 dijo que yo soy un caballo y K2 dijo que yo también soy un caballo. Ellos todos tienen los atributos de un caballo. K1 puede estar bloqueado, dando como resultado solo características de herradura, y K2 tiene herraduras, colas de caballo y cabezas de caballo, entonces la correlación entre Q1 y k2 será mayor al calcular la correlación, y luego mire el valor específico. Con un aprendizaje tan continuo, Q1 es responsable de encontrar caballos, las características del caballo que busca son cada vez más evidentes. En DETR, lo que hay que entrenar es esta Q, luego Q1 será responsable de encontrar el caballo en el futuro, y el resto será procesado de la misma manera.

Supongo que te gusta

Origin blog.csdn.net/pengxiang1998/article/details/129893837
Recomendado
Clasificación