目标检测——【Transformer】DEFORMABLE DETR: TRANSFORMADORES DEFORMABLES PARA LA DETECCIÓN DE OBJETOS DE EXTREMO A EXTREMO

Enlace en papel: https://arxiv.org/abs/2010.04159

Enfoque del artículo

  1. Hay dos problemas para mejorar el DERT:
    • El motivo de la velocidad de convergencia lenta es que la consulta del objeto comienza desde cero y el mecanismo de atención actual calcula las características de forma global píxel por píxel, lo que lleva mucho tiempo.
    • El rendimiento de detección de DERT para objetivos pequeños no es bueno, porque la detección de objetivos pequeños generalmente requiere mapas de características de alta resolución, pero DERT solo usa una única escala para la detección debido a las compensaciones de rendimiento.
  2. DERT deformable se basa en la idea de muestreo escaso de la convolución deformable , la extiende a Transformer y realiza una detección de múltiples escalas. Por el contrario, Deformable Convolution encuentra un punto clave en una sola escala, mientras que Deformable DERT puede encontrar múltiples puntos clave en múltiples escalas.
  3. DERT deformable cree que la distribución relacionada con el objetivo en el mapa de características es escasa, por lo que algunas características de puntos clave del objetivo se utilizan para generar nuevos vectores de características utilizando la dispersión.

Módulo de Atención Deformable.

inserte la descripción de la imagen aquí
La figura muestra un diagrama esquemático de un Módulo de Atención Deformable de escala simple

  • La entrada es Característica de consulta zq z_qzq, pq p_q de la posición central prevista del objetivopagq, función objetivo xxX
  • Paso 2: Generar pesos. Por función de consulta zq z_qzqRealice un mapeo lineal y parte de las características generadas se utilizan como Compensaciones de muestreo ( Δ pmqk \Delta p_{mqk}pag_ _m q k), y el resto pasa Softmax para generar Pesos de Atención( A mqk A_{mqk}Am q k)。
  • El tercer paso: fusión de características de puntos clave.
  • Salida: un vector de características compuesto por puntos clave.

Fórmula de cálculo del módulo de atención deformable de escala única

inserte la descripción de la imagen aquí
Para conocer el significado de cada variable en la fórmula, consulte Recursos .

Fórmula de cálculo del módulo de atención deformable multiescala

inserte la descripción de la imagen aquí
La diferencia entre los módulos de atención deformables de escala única y escala múltiple es en realidad convertir un mapa de características de entrada en múltiples mapas de características, por lo que el cálculo en la fórmula se extiende desde el cálculo de un mapa de características al cálculo de múltiples mapas de características. Debido a que las características de los objetivos pequeños son más prominentes en los mapas de características de alta resolución, los mapas de características de múltiples escalas, por supuesto, se consideran más ampliamente.

Estructura de red DERT deformable

inserte la descripción de la imagen aquí
La imagen de arriba muestra la estructura de detección de DERT deformable .

  1. Entrada: mapas de características multiescala de imágenes. Hay cuatro mapas de características en total, los primeros tres se obtienen de Stage3, Stage4 y Stage5 de ResNet, y el cuarto mapa de características se obtiene de Stage5 de ResNet a través de una convolución de 3x3 con un tamaño de paso de 2. La dimensión del mapa de características C = 256 C=256C=256 . Como se muestra abajo
    inserte la descripción de la imagen aquí

  2. Codificador de transformador deformable

    • Entrada: Cuatro mapas de características multiescala.
    • Para Encoder, el punto de referencia es el pq p_q de la primera fórmulapagqes equivalente a zq z_qzqpíxeles en . Porque la entrada es un mapa de características de múltiples escalas, y zq z_qzqes un vector unidimensional, por lo que se introduce el vector de incrustación de escala el e_lmiyoAgregado al mapa de funciones, al igual que position_embeding, hay un parámetro que se puede aprender. Como el factor de adaptación de escala.
    • Salida: Cuatro mapas de características del mismo tamaño que la entrada.
  3. Decodificador de transformador deformable : contiene atención propia y atención cruzada. En Self-Attention, la consulta de destino interactúa entre sí para calcular la similitud; en Cross-Attention, la consulta de destino extrae características de puntos clave relacionadas con el objetivo de las características de destino generadas por el codificador.

    • Debido a que la entrada es el mapa de características obtenido por convolución y la consulta de destino, la Autoatención del Decodificador sigue el cálculo de la Autoatención en el Transformador.
  4. Refinación de cuadro delimitador iterativo : en el documento se utiliza un método para generar cuadros de predicción de forma iterativa. De hecho, el punto de referencia se inicializa como la predicción del punto central del objetivo. Entonces, el encabezado de predicción en realidad está prediciendo el desplazamiento relativo del punto de referencia .

    • La salida de características de cada capa de Decoder generará un cuadro delimitador de predicción, y luego la capa subsiguiente refinará aún más la predicción de salida de la capa anterior, como se muestra en la siguiente fórmula:
      inserte la descripción de la imagen aquí

DERT deformable de dos etapas

En el documento también se propone una variante de DERT deformable , a saber, DERT deformable de dos etapas .

  • La primera etapa: generar muchas propuestas,.
  • La segunda etapa: utilizar directamente las características de la imagen contenidas en la propuesta como características objetivo.

detalles de implementacion

Utilice el aplanamiento de píxeles de las entidades de varias escalas como consulta de destino. Después de considerar realmente la cantidad de cálculo, este DERT deformable de dos etapas es en realidad un DERT deformable solo con codificador sin el decodificador.

Mira el código, después de leerlo, puedes ir a hacer ejercicio por la noche~

Supongo que te gusta

Origin blog.csdn.net/qq_42312574/article/details/127701107
Recomendado
Clasificación