Precisión del papel DINO y análisis de su estructura de modelo y variantes de DETR

A partir del 25 de julio de 2022, DINO es la SOTA de detección de objetos.

Escribo este blog basado en mi experiencia de reproducir el código fuente y mi lectura intensiva de los documentos de DINO, con la esperanza de ayudarlo.

Tabla de contenido

1. Resumen

2. Conclusión

3. Analizando el modelo DINO

(1) Descripción general El modelo DINO se basa en trabajos anteriores

(2) Resumen del modelo DINO

4. Métodos innovadores

(1) ¿Qué es el entrenamiento de eliminación de ruido contrastivo?

(2) ¿Qué es la selección de consultas mixtas?

(3) ¿Qué es Look Forward Twice?

5. Aspectos experimentales

(1) Conjunto de datos y red troncal

(2) Detalles de implementación

6. Visualización de datos brillante


1. Resumen

Presentamos DINO ( D ETR con I mejorado de Ruido y Cajas), un detector de objetos de punta a punta de última generación. DINO usando:

  • Métodos de entrenamiento de eliminación de ruido contrastivo;
  • método híbrido de selección de consultas para la inicialización de anclas;
  • Reenviar el esquema dos veces para la predicción de cajas;
  • Este artículo analizará los tres métodos innovadores anteriores uno por uno.

Mejora el modelo DETR anterior en rendimiento y eficiencia. Usando ResNet - 50 backbone y características de múltiples escalas, DINO obtuvo 49.4 AP en 12 épocas y 51.3 AP en 24 épocas (¡ convergencia muy rápida! ), Comparable con la proporción del modelo DN-DETR anterior (el mejor modelo similar a DETR), ganando un impulso significativo de +6.0 AP y +2.7 AP, respectivamente. DINO funciona bien tanto en escala de modelo como en escala de datos. Sin campanas ni silbatos, DINO logra los mejores resultados tanto en COCO val2017 (63.2AP) como en test-dev (63.3AP) después del entrenamiento previo en el conjunto de datos de Objects365 con la red troncal SwinL. En comparación con otros modelos en la tabla de clasificación, DINO reduce significativamente el tamaño del modelo y el tamaño de los datos de preentrenamiento al mismo tiempo que logra mejores resultados.

Palabras llave: Detección de Objetos; Transformador de detección; Detector de extremo a extremo

Enlace en papel: https://arxiv.org/abs/2203.03605

Enlace fuente: https://github.com/IDEACVR/DINO

Suplemento:  sustantivo + '-like' >>> adjetivo, que significa "like...like, like...like, like...of" 

 2. Conclusión

En este documento, proponemos DINO, un potente detector de transformador de extremo a extremo con entrenamiento de eliminación de ruido contrastivo, selección de consulta híbrida y dos anticipaciones, que mejora significativamente la eficiencia del entrenamiento y el rendimiento de detección final. Por lo tanto, en COCO val2017, DINO supera a todos los modelos anteriores basados ​​en ResNet-50 en escenas de orden 12 y orden 36 utilizando funciones de escala múltiple. Inspirados por la mejora, exploramos aún más la capacitación de DINO con una columna vertebral más sólida en un conjunto de datos más grande y logramos un 63.3 AP de última generación en el desarrollo de prueba de COCO 2017. Este resultado establece el modelo similar a DETR como un marco de detección convencional, no solo por su novedosa optimización de detección de extremo a extremo, sino también por su rendimiento superior.

El autor mostró los resultados de SOTA al comienzo del artículo, como se muestra en la Figura 1:

Figura 1 Comparación de DINO con otros modelos de detección en el conjunto de datos COCO

  • Figura 1 (a) Comparación con el modelo epoch entrenado w.r.t. de red troncal ResNet-50. Entre ellos, el modelo marcado con DC5 utiliza mapas de características de mayor resolución y extendidos, y otros modelos utilizan características de varias escalas.
  • Fig. 1 (b) Comparación del tamaño de los datos previos al entrenamiento y el tamaño del modelo con el modelo SOTA. El modelo SOTA proviene de la tabla de clasificación de desarrollo de pruebas de COCO. En la leyenda, enumeramos el tamaño de los datos de entrenamiento de intervención ósea (primer número) y el tamaño de los datos de preentrenamiento de detección (segundo número).

Resumen: el modelo DINO logra una precisión que otros modelos no pueden igualar después de algunas épocas, y el tamaño de los datos previos al entrenamiento y el tamaño del modelo también son más pequeños que otros modelos.

3. Analizando el modelo DINO

(1) Descripción general El modelo DINO se basa en trabajos anteriores

Como se estudió en DETR condicional [25] y DAB-DETR [21], la consulta en DETR [3] consta de dos partes: una parte de ubicación y una parte de contenido, denominadas consulta de ubicación y consulta de contenido en este documento. DAB-DETR [21] representa explícitamente cada consulta de ubicación en DETR como un cuadro ancla 4D (x, y, w, h), donde x e y son las coordenadas centrales del cuadro, y w y h corresponden a su ancho y alto . Este formato explícito de cuadro de anclaje facilita el perfeccionamiento dinámico de los cuadros de anclaje capa por capa en el decodificador .

¿Cómo resolver el problema de la convergencia lenta de DETR?

DN-DETR [17] introduce un método de entrenamiento de eliminación de ruido (DN) para acelerar la convergencia de entrenamiento de modelos similares a DETR. Esto sugiere que el problema de convergencia lenta en DETR es causado por la inestabilidad de la coincidencia bipartita. Para aliviar este problema, DN-DETR propone agregar etiquetas y cajas ruidosas de verdad de tierra (GT) en el decodificador del transformador y entrenar el modelo para reconstruir la verdad de tierra. El ruido agregado   está restringido por  , donde ( x , y , w , h ) denota un cuadro GT y λ es un hiperparámetro que controla la magnitud del ruido. Dado que DN-DETR sigue a DAB-DETR para tratar las consultas del decodificador como anclas, dado que λ suele ser pequeño, una caja GT ruidosa puede considerarse como un ancla especial con una caja GT cerca. Además de la consulta DETR original, DN-DETR agrega una parte DN en el decodificador, que alimenta las etiquetas y cajas GT ruidosas en el decodificador para proporcionar una pérdida de DN auxiliar. La pérdida de DN estabiliza y acelera efectivamente el entrenamiento de DETR y se puede conectar a cualquier modelo de DETR.

Notas: λ: mientras que el modelo DN-DETR usa λ1 y λ2 para la escala de ruido para el desplazamiento central y la escala de caja, se establece λ1 = λ2. Para simplificar, λ1 y λ2 se reemplazan por λ en este artículo.

DETR deformable [41] es otro trabajo temprano para acelerar la convergencia de DETR. Para calcular la atención deformable, introduce el concepto de punto de referencia, que permite que la atención deformable se centre en un pequeño conjunto de puntos de muestreo clave alrededor del punto de referencia. El concepto de puntos de referencia hace posible desarrollar varias técnicas para mejorar aún más el rendimiento de DETR. La primera técnica es "de dos etapas", que selecciona directamente características y cuadros de referencia del codificador como entrada al decodificador. La segunda técnica es el refinamiento iterativo de la caja delimitada con un cuidadoso diseño de separación de gradientes entre las dos capas del decodificador. En nuestro documento, nos referimos a las técnicas de separación de "dos etapas" y gradiente como  "selección de consulta" y "esperar una vez", respectivamente.

Después de DAB-DETR y DN-DETR, DINO representa las consultas de ubicación como cuadros de anclaje dinámicos y se entrena con una pérdida de DN adicional. Vale la pena señalar que DN-DETR también adopta algunas técnicas de DETR deformable para lograr un mejor rendimiento, incluido su mecanismo de atención deformable y la implementación de "mirar hacia adelante una vez" en la actualización de parámetros de capa . DINO adopta además la idea de selección de consultas en Deformable DETR para inicializar mejor las consultas de ubicación. Sobre la base de esta sólida base de referencia, DINO presenta tres nuevos métodos para mejorar aún más el rendimiento de detección, que se describirán en la Sec. 3.3, sec. 3.4 y Sec. 3.5 respectivamente.

(2) Resumen del modelo DINO

Como se muestra en la Figura 2, nuestras mejoras se reflejan principalmente en el codificador y decodificador Transformer. Las características del codificador top-K en la última capa se seleccionan para inicializar las consultas posicionales del decodificador Transformer, mientras que las consultas de contenido se mantienen como parámetros de aprendizaje. Nuestro decodificador también contiene una parte Contrastive DeNoising (CDN) con muestras positivas y negativas.

Explicación de palabras clave:

Aplanar : mosaico

Coincidencia : coincidencia

Pos Neg: muestras positivas y negativas

Init Anchors : inicializa el cuadro de anclaje

CDN : Eliminación de ruido contrastivo

Incrustaciones de posición : incrustación de posición

Característica de escala múltiple : características de escala múltiple

Encodor Layers × N : Codificador con N capas de codificación

Decodor Layers × N : Decodificador con N capas de decodificación

GT + Ruido : Cajas de etiquetas de verdad de tierra con ruido

Consultas de contenido de aprendizaje : consultas de contenido de aprendizaje

Transformador 中的 K, V, Q : clave, valor, consulta

Figura 2 Marco del modelo DINO

Como modelo similar a DETR, DINO es una arquitectura de extremo a extremo que consta de una red troncal, un codificador de transformador multicapa, un decodificador de transformador multicapa y varios cabezales de predicción. La canalización general se muestra en la Figura 2.

El proceso de propagación del modelo DINO, y la mejora de algunos módulos:

  1. Dada una imagen, extraemos características de múltiples escalas con redes troncales como ResNet o Swin Transformer.
  2. A continuación, utilice la entrada de incrustación de posición correspondiente al codificador del transformador para mejorar las funciones.
  3. Después de usar la capa del codificador para mejorar las funciones, proponemos una nueva estrategia de selección de consultas mixtas para inicializar los anclajes como consultas posicionales para el decodificador. Tenga en cuenta que esta estrategia no inicializa las consultas de contenido, pero las hace fáciles de aprender.
  4. Con anclas inicializadas y consultas de contenido de aprendizaje , usamos la atención deformable [41] para combinar las funciones que genera el codificador y actualizar la consulta capa por capa.
  5. El resultado final está formado por cuadros ancla refinados y resultados de clasificación previstos de función de contenido refinado.
  6. Al igual que DN-DETR, tenemos una rama DN adicional para el entrenamiento de eliminación de ruido. Además de los métodos estándar de DN, proponemos un nuevo enfoque de entrenamiento de eliminación de ruido contrastivo , que se implementa considerando muestras negativas duras.
  7. Con el fin de hacer un uso completo de la información refinada de la caja de la última capa para ayudar a optimizar los parámetros de sus primeras capas adyacentes , se propone un nuevo método de mirar hacia adelante dos veces para transferir el gradiente entre capas adyacentes.

4. Métodos innovadores

(1) ¿Qué es el entrenamiento de eliminación de ruido contrastivo?

DN-DETR es muy efectivo para estabilizar el entrenamiento y acelerar la convergencia. Con la ayuda de consultas DN, aprende a hacer predicciones basadas en anclas con cajas GT cercanas. Sin embargo, carece de la capacidad de predecir "ningún objeto" para anclas sin objetos cercanos. Para abordar este problema, proponemos un método Contrastive DeNoising (CDN) para rechazar anclajes inútiles.

Figura 3 La estructura del grupo CDN y la demostración de ejemplos positivos y negativos

Como se muestra en la figura anterior, aunque tanto los ejemplos positivos como los negativos son anclas 4D y se pueden representar como puntos en el espacio 4D, los representamos como puntos en el espacio 2D en cuadrados concéntricos para simplificar. Suponiendo que el centro del cuadrado es una caja GT, entonces:

  • Los puntos dentro del cuadrado interior se consideran ejemplos positivos .
  • Los puntos entre los cuadrados interior y exterior se consideran ejemplos negativos

a) Implementación de CDN: DN-DETR tiene un hiperparámetro λ para controlar la escala de ruido. El ruido generado no es mayor que λ, porque DN-DETR espera que el modelo reconstruya la verdad del terreno (GT) a partir de consultas moderadamente ruidosas. En nuestro método, tenemos dos hiperparámetros λ1 y λ2, donde λ1 < λ2. Como muestran los cuadros concéntricos en la Figura 3, generamos dos tipos de consultas de CDN: consultas positivas y consultas negativas. Las consultas positivas dentro del cuadrado interior tienen una escala de ruido menor que λ1 y se espera que reconstruyan el cuadro de verdad de fondo correspondiente a la consulta positiva . Se espera que las consultas negativas entre bloques internos y externos con escalas de ruido mayores que λ1 y menores que λ2 predigan 'ningún objeto'. Por lo general, adoptamos un λ2 más pequeño porque las muestras negativas duras más cercanas a las cajas GT son más útiles para mejorar el rendimiento. \lambda Selección cuidadosa)

Como se muestra en la figura 3, cada grupo de CDN tiene un conjunto de consultas positivas y consultas negativas. Si una imagen tiene n casillas GT, un grupo CDN tendrá 2 × n consultas, y cada casilla GT genera una consulta positiva y una consulta negativa. Similar a DN-DETR, también usamos múltiples grupos CDN para mejorar la efectividad de nuestro método.

b) Selección de la función de pérdida:

  • La pérdida de reconstrucción de la regresión BOX es  l_{1} y la pérdida de GIOU,
  • Pérdida focal para clasificación Pérdida focal para detección de objetos densos.
  • La pérdida de clasificación de muestras negativas como fondo también es pérdida focal.
  • Nota: La pérdida focal es una función de pérdida propuesta por He Kaiming para resolver el problema del desequilibrio de la muestra.

c) Analizar por qué funciona el enfoque CDN: porque suprime la confusión y selecciona anclajes (consultas) de alta calidad para predecir cuadros delimitadores. Puede surgir confusión cuando varios anclajes están cerca de un objeto. En este caso, es difícil para el modelo decidir qué ancla elegir. Esta confusión puede causar dos problemas.

  1. El primer problema son las predicciones repetidas. Aunque los modelos similares a DETR pueden suprimir cuadros repetidos con la ayuda de la pérdida basada en conjuntos y la autoatención [DETR: detección de objetos de extremo a extremo con transformadores ], esta capacidad es limitada. Como se muestra en el panel izquierdo de la Figura 8, al reemplazar nuestra consulta de CDN con una consulta de DN, el niño señalado por la flecha tiene 3 predicciones duplicadas. A través de la consulta de CDN, nuestro modelo puede distinguir diferencias sutiles entre anclas y evitar predicciones repetidas, como se muestra en la figura de la derecha de la Figura 8.
  2. El segundo problema es que los anclajes no deseados pueden seleccionarse más lejos del cuadro GT. Si bien el entrenamiento de eliminación de ruido mejora la capacidad del modelo para seleccionar anclas cercanas, las CDN mejoran aún más esta capacidad al enseñarle al modelo a rechazar anclas más distantes.

La Figura 8 a la izquierda es el resultado de la detección del modelo entrenado con la consulta DN, y la derecha es el resultado de la CDN. En la imagen de la izquierda, el niño señalado por la flecha tiene 3 cuadros delimitadores repetidos. Para mayor claridad, solo mostramos casillas de clase "persona".

d) Verificar la efectividad de la CDN: Para probar la efectividad de la CDN, definimos la distancia Top-K promedio (Distancia Top-K promedio, ATD ( k ) ) , y la usamos en la parte correspondiente para evaluar la distancia entre el punto de anclaje y la distancia del cuadro GT de destino. Al igual que DETR, cada ancla corresponde a una predicción que puede coincidir con un cuadro GT o con el fondo. Aquí solo consideramos aquellos que coinciden con la caja GT. Supongamos que hay cajas enlazadas N GT (b0, b2, .., bN-1) en un conjunto de validación, donde Para cada bi}, podemos encontrar su ancla correspondiente y denotarla como  . ai} es el cuadro de anclaje inicial del decodificador, que asigna la última capa del decodificador a  bi}cuadros de refinamiento posteriores durante la coincidencia. Entonces nosotros tenemos:

donde es la distancia entre bi y ai , una función que devuelve el conjunto de los k elementos más grandes en x. La razón por la que elegimos los elementos K superiores es que es más probable que ocurra un problema de aliasing cuando las cajas GT se combinan con anclas más lejanas. Como se muestra en la Figura 4 (a) y (b), DN es suficiente para seleccionar un buen conjunto de anclaje. Sin embargo, las CDN encuentran mejores anclajes para objetos pequeños. La figura 4 (c) muestra una mejora en el rendimiento de consultas de CDN de +1,3 AP en ResNet-50 y funciones de escala múltiple para consultas de DN en objetos pequeños durante 12 épocas.

Figura 4 (a) y (b): ATD(100) en todos los objetos y objetos pequeños, respectivamente; (c): AP en objetos pequeños. 

(2) ¿Qué es la selección de consultas mixtas?

Figura 5 Comparación de tres métodos diferentes de inicialización de consultas (observe los sustantivos en inglés en la figura)

El término "estático" significa que, por inferencia, seguirán siendo los mismos para diferentes imágenes. Una implementación común para estas consultas estáticas es hacer que se puedan aprender. 

Consultas estáticas: en DETR y DN-DETR, las consultas del decodificador son incrustaciones estáticas que no requieren que se extraiga ninguna característica del codificador de una sola imagen, como se muestra en la Figura 5(a). Aprenden anclas (en DN - DETR y DAB - DETR ) o consultas de ubicación (en DETR ) directamente de los datos de entrenamiento y configuran todas las consultas de contenido en 0 vectores.

Selección de consulta pura: DETR deformable aprende la consulta de ubicación y la consulta de contenido al mismo tiempo, que es otra implementación de la inicialización de consulta estática. Para mejorar aún más el rendimiento, Deformable DETR propone una variante de selección de consultas ("dos etapas") que selecciona las principales funciones del codificador K de la última capa del codificador como prioritarias para mejorar las consultas del decodificador. Como se muestra en la Figura 5(b), tanto las consultas de ubicación como las de contenido se generan mediante transformaciones lineales de características seleccionadas . Además, estas características seleccionadas se envían a un cabezal de detección auxiliar para obtener casillas predichas, que se utilizan para inicializar las casillas de referencia. De manera similar, Efficient DETR también selecciona las principales funciones K en función de la puntuación objetiva (clase) de cada función del codificador. 

Selección de consultas mixtas: en nuestro modelo, el formato de cuadro de anclaje 4D dinámico de la consulta hace que esté estrechamente relacionado con la consulta de posición del decodificador, que se puede mejorar mediante la selección de consultas. Seguimos la práctica anterior y proponemos un método híbrido de selección de consultas. Como se muestra en la Figura 5(c), inicializamos los cuadros de anclaje solo con la información de ubicación asociada con las características de K principales seleccionadas, pero mantenemos la consulta de contenido estática como antes. Tenga en cuenta que Deformable DETR utiliza funciones top-K para mejorar no solo las consultas de ubicación sino también las consultas de contenido. Dado que las características seleccionadas son características de contenido preliminar, sin mayor refinamiento, pueden resultar ambiguas y engañosas para el decodificador. Por ejemplo, una característica seleccionada puede contener varios objetos o ser solo una parte de un objeto. Por el contrario, nuestro método híbrido de selección de consultas solo mejora las consultas posicionales con funciones de selección top-K y mantiene la capacidad de aprendizaje de las consultas de contenido. Esto ayuda al modelo a aprovechar mejor la información posicional para incorporar funciones de contenido más completas del codificador.

(3) ¿Qué es Look Forward Twice?

Figura 6 Comparación entre la actualización de cajas en Deformable DETR y el método de este documento

Look Forward Once: Proponemos un nuevo método de predicción de casillas en esta sección. El refinamiento iterativo de la caja en Deformable DETRpuede evitar la retropropagación del gradiente para estabilizar el entrenamiento. Llamamos al método Look Forward Once, porque los parámetros de la i-ésima capa solo se bi} actualizan de acuerdo con la pérdida auxiliar de la caja, como se muestra en la Fig. 6 (a).

Mirar hacia adelante dos veces: sin embargo, conjeturamos que la información mejorada del cuadro de una capa posterior puede ser más útil para corregir las predicciones del cuadro de sus capas anteriores adyacentes. Por lo tanto, proponemos otro método llamado Look Forward Twice para realizar actualizaciones de cuadro, donde los parámetros de la capa i-ésima se ven afectados por la pérdida de la capa i-ésima y la capa (i + 1) , como se muestra en 6(b). . Para cada compensación pronosticada \Delta b_{i}, se usará para actualizar el cuadro dos veces, una para y otra para , por lo que llamamos a nuestro método adelante dos veces.

El proceso de implementación específico de Look Forward Twice es el siguiente:

La precisión final del cuadro pronosticado está determinada por dos factores: la calidad del cuadro inicial b_{i-1} y el desplazamiento del cuadro pronosticado \Delta b_{i} .

El esquema de paso hacia adelante solo optimiza este último, ya que la información del gradiente se separa de la i-ésima capa a la (i-1)-ésima capa. En su lugar, mejoramos tanto el cuadro inicial  b_{i-1}como el desplazamiento del cuadro previsto \Delta b_{i}. Una forma sencilla de mejorar la calidad es usar la salida de la siguiente capa  \Delta b_{i+1} para supervisar el cuadro final en la capa i . Por lo tanto, usamos la suma  \Delta b_{i+1} de y como el cuadro predicho para la capa ( i + 1 ). (similar a la idea de series temporales de redes neuronales recurrentes)

Más específicamente, dado un cuadro de entrada en la capa i  b_{i-1}, obtenemos el cuadro final previsto : 

  • es la versión no independiente bi}de .
  • Desprendimiento de gradiente: Obtenido bi} por separación de gradiente. 
  • El término Actualizar(·,·) es una función que realiza \Delta b_{i}  la operación de refinamiento por el cuadro de desplazamiento de cuadro predicho  .b_{i-1}

Usamos el mismo método de actualización de cuadro que en Deformable DETR: Deformable DETR usa la forma normalizada de cuadro en el modelo, por lo que cada valor de cuadro es un número de punto flotante entre 0 y 1. Dadas dos casillas, súmelas después del sigmoide inverso y luego sume a través de la transformación sigmoidea.

5. Aspectos experimentales

(1) Conjunto de datos y red troncal

Conjuntos de datos: evaluamos el conjunto de datos de detección de objetos COCO 2017 [20], que se divide en train2017 y val2017 (también conocido como minival).

Red troncal: informamos los resultados utilizando dos redes troncales diferentes:

  • ResNet-50 preentrenado en ImageNet-1k.
    "Aprendizaje residual profundo para el reconocimiento de imágenes"
  • SwinL entrenado previamente en ImageNet-22k.
    《Swin transformer: Transformador de visión jerárquica usando ventanas desplazadas》

DINO que usa ResNet-50 se entrenó en train2017 sin datos adicionales, mientras que DINO que usa SwinL primero se entrenó previamente en Object365 "Objects365: un conjunto de datos a gran escala y de alta calidad para la detección de objetos" y luego se ajustó en train2017. Informamos resultados estándar de precisión promedio (AP) para val2017 en diferentes umbrales de IoU y escalas de objetos. También informamos los resultados de las pruebas de DINO con SwinL.

(2) Detalles de implementación

DINO consta de una red troncal, un codificador Transformer, un decodificador Transformer y varios cabezales de predicción. En el Apéndice D, brindamos más detalles de implementación, incluidos todos los hiperparámetros y las técnicas de ingeniería utilizadas en nuestro modelo, para aquellos que deseen reproducir nuestros resultados. Publicaremos el código después de la revisión ciega (ya publicado, lo he ejecutado, se actualizará más tarde).

Apéndice D: Algunas técnicas de optimización de entrenamiento, selección de hiperparámetros e información de GPU utilizada. Al leer el código fuente, puede consultar el apéndice; algunos hiperparámetros se muestran en la Tabla 8:

 Tabla 8 Hiperparámetros utilizados por el modelo DINO

6. Visualización de datos brillante

Tabla 1. Resultados de DINO y otros modelos de detección en COCO val2017 usando una red troncal ResNet50 entrenada usando 12 épocas (la llamada configuración 1 ×) . Para los modelos sin funciones de escala múltiple, probamos sus GFLOPS y FPS para obtener el mejor modelo ResNet-50-DC5.

  • DINO utiliza 900 consultas.
  • Identifique modelos que apuntan a 900 consultas o 300 consultas usando 3 modos que tienen efectos similares a 900 consultas.
  • Otros modelos similares a DETR excepto DETR (100 consultas) que utilizan 300 consultas.
  • * Indica pruebas con el marco mmdetection. 
  • 4scale y 5scale: mapa de características multiescala (características multiescala).

Reponer:

GFLOPS: Giga de operaciones de coma flotante por segundo, es decir, 1000 millones de operaciones de coma flotante por segundo, a menudo se usa como un parámetro de rendimiento de la GPU, pero no representa necesariamente el rendimiento real de la GPU. Es una medida del poder de cómputo de una computadora, que a menudo se usa en cálculos científicos que requieren una gran cantidad de operaciones de coma flotante.

MMDetection  es un proyecto de código abierto lanzado por SenseTime y la Universidad China de Hong Kong para tareas de detección de objetivos. Implementa una gran cantidad de algoritmos de detección de objetivos basados ​​en Pytorch y encapsula los procesos de construcción de conjuntos de datos, construcción de modelos y estrategias de entrenamiento en módulos En la forma de llamar a los módulos, podemos implementar un nuevo algoritmo con una pequeña cantidad de código, lo que mejora en gran medida la tasa de reutilización del código. El código fuente de DINO usa el archivo config.py en mmcv.

Tabla 2 DINO y otros modelos de detección usan ResNet-50 como la columna vertebral en COCO val2017 y usan más resultados de entrenamiento de época

Figura 7. Curvas de convergencia de entrenamiento que evalúan DINO y dos modelos ResNet-50 de última generación anteriores en COCO val2017 usando características de escala múltiple. Refleja completamente que mientras DINO garantiza mejorar la precisión, la velocidad de convergencia ha aumentado desde la velocidad del antílope hasta la velocidad del guepardo. Usé una GPU rápida para entrenar durante 30 horas en DETR para lograr el mismo efecto que entrenando en DINO durante más de tres horas.

Tabla 3 Comparación de DINO con los mejores modelos de detección anteriores en MS-COCO

 Tabla 4 Resultados del experimento de ablación para los módulos innovadores propuestos

>>> Si tiene alguna pregunta, bienvenido a discutir en el área de comentarios.

Esquema de precisión del papel de visión artificial

Supongo que te gusta

Origin blog.csdn.net/qq_54185421/article/details/125949343
Recomendado
Clasificación