DINO（ICLR 2023）

DETR con caja de anclaje antiruido mejorada

Desarrollo DINO:

DETR condicional->DAB-DETR (corrección 4D, WH)

DN-DETR (entrenamiento de eliminación de ruido, proceso de coincidencia estable de eliminación de ruido)

DETR deformable (Variante 1: dos etapas, la salida del codificador se reemplaza por un encabezado de clasificación FFN con consulta de objeto, Variante 2: refinamiento iterativo del cuadro)

Tres mejoras:

Entrenamiento de eliminación de ruido de contraste
Inicialización de consulta (diseño de consulta de objeto del decodificador)
predicción de caja

Demostró la escalabilidad de la clase DETR en grandes conjuntos de datos, utilizando grandes conjuntos de datos de gran tamaño y comparación SOTA.

imagen

Modelo

imagen

Se utilizan funciones de múltiples escalas.
Selección de consulta: utilice la salida del codificador para ayudar al decodificador a determinar la consulta
Utilice entrenamiento de eliminación de ruido contrastivo: pos (muestras positivas) neg (muestras negativas)
Mejorar el refinamiento de la iteración del cuadro (no se muestra en la imagen)

Entrenamiento contrastivo de eliminación de ruido

DN: entrenamiento de eliminación de ruido, coincidencia estable

DN dos ruidos: hiperparámetro de compensación de DN (xywh) original (0 ~ 1) λ1 (xy) = λ2 (wh) = 0,4, inversión de etiqueta

Insertar descripción de la imagen aquí

Ejemplo: Aunque tanto los ejemplos positivos como los negativos son anclajes 4D que se pueden representar como puntos en un espacio 4D, los ilustramos como puntos en un espacio 2D sobre cuadrados concéntricos para simplificar.

加了对比 (genera dos tipos de consultas CDN: consultas positivas y consultas negativas):

λ1<λ2 (no es un hiperparámetro de DN-DETR)

Muestra positiva : una muestra positiva que cae en λ1

Muestra negativa : muestra negativa de λ1~λ2

Cada GT está diseñado con una muestra positiva y una muestra negativa
Intentará mantener λ1 y λ2 cerca para formar muestras negativas duras.
Para muestras positivas, aún calcule la pérdida focal, pérdida focal
Para muestras negativas, la predicción final de la categoría no debe ser objeto
grupo de reserva

Idea:

Si no hay ningún objeto cerca del ancla, se debe predecir como ningún objeto. Utilice el método de comparación para aprender mejor que no hay ningún objeto.

Cuando hay varios anclajes alrededor de un GT, el modelo no puede elegir qué anclaje, lo que provocará los dos problemas siguientes:

Cuando hay múltiples anclas alrededor de un GT, es difícil para el modelo determinar qué GT predice el ancla, y se producirán predicciones repetidas (aunque Hungría fuerza la coincidencia uno a uno, todavía es limitada)
El ancla y el GT se asignarán si están muy separados, de hecho, este tipo de ancla debe clasificarse como ningún objeto.

Verificar la validez de CDN : ATD

Para demostrar la efectividad de CDN, definimos la distancia promedio superior-K (ATD (k), indicador) y la usamos en la parte coincidente para evaluar la distancia del punto de anclaje desde el cuadro GT objetivo. Al igual que DETR, cada ancla corresponde a una predicción, que puede coincidir con un cuadro GT o el fondo. Aquí sólo consideramos aquellos que coinciden con la caja GT.

N GT (b0, b2,..., bN-1).

imagen

Para cada uno $bi}$ , podemos encontrar su ancla correspondiente y expresarlo como:

imagen

ai es el ancla inicial del decodificador, que asigna la última capa del decodificador al cuadro de refinamiento después de bi durante la comparación. Entonces nosotros tenemos:

imagen

norma L1

El rendimiento es mucho mejor en objetivos pequeños

imagen

Selección de consultas mixtas

En DETR y DN-DETR, la consulta del decodificador es una incrustación estática sin obtener ninguna característica codificada de una sola imagen.

DETR deformable tiene una variante de selección de consulta (de dos etapas), que selecciona las primeras características del codificador K de la salida del codificador después del último codificador como antes para mejorar la consulta del decodificador. DETR deformable utiliza características top-K (etiqueta) no solo
Aplicar Se utiliza para consultas de ubicación y consultas de contenido.

Es decir, entrada del decodificador:

detr: tgt (cero), consulta pos (incrustación)

DINO: tgt (se incrusta), consulta pos (la consulta de objeto proviene de la salida topk del codificador, información sobre la imagen actual)

El método de selección de consulta mixta solo mejora la consulta de ubicación con las funciones de selección top-k
y mantiene la consulta de contenido tan fácil de aprender como antes.

imagen

(a) decodificador detr:tgt y consulta de objeto

(b) detr deformable: se agrega la selección k superior y funciona en la consulta de objetos y tgt al mismo tiempo.

Mirar hacia adelante dos veces

imagen

El cabezal de la caja del decodificador se corrige en función de la pérdida auxiliar y el gradiente se rompe antes de la i-ésima capa (línea discontinua)

Mire hacia adelante una vez: la pérdida auxiliar solo puede modificar el gradiente de la capa actual (decodificador). El refinamiento del cuadro iterativo en Deformable DETR puede evitar la retropropagación del gradiente para estabilizar el entrenamiento.

imagen

Esperamos dos veces:

**Conjetura, la información de caja mejorada de la capa posterior puede ser más útil para corregir la predicción de caja de su capa temprana adyacente. **Por lo tanto, se propone otro método llamado Look Forward Twice para realizar la actualización del cuadro, donde los parámetros de la i-ésima capa se ven afectados por la pérdida de la i-ésima capa y la capa (i+1).

Δbi es la corrección de la entrada bi-1 a la capa anterior

Agregue Δbi a la entrada bi-1 de la capa anterior para obtener bi' (cuadro corregido)

bi (pred) es la predicción dada por boxhead. La fuente es bi'-1+Δbi. Puede modificar el decodificador de esta capa y el decodificador anterior.

experimento de ablación

imagen

DINO（ICLR 2023）

DINO（ICLR 2023）

Modelo

Entrenamiento contrastivo de eliminación de ruido

Verificar la validez de CDN : ATD

Selección de consultas mixtas

Mirar hacia adelante dos veces

experimento de ablación

Supongo que te gusta