Información seca | La Universidad de Pekín propone DynamicDet: una arquitectura dinámica universal para detectores de objetivos

Haga clic en el texto azul

ae1a165f6f3ab991fa9cd277480fdf75.jpeg

Síganos

¡AI TIME da la bienvenida a todos los entusiastas de la IA para que se unan!

El siguiente contenido proviene de CVer.

Este artículo comparte el documento CVPR 2023 "DynamicDet: una arquitectura dinámica unificada para la detección de objetos" , una arquitectura dinámica universal para detectores de objetos propuesta por el equipo de Wang Yongtao en el Instituto Wangxuan de Ciencias de la Computación de la Universidad de Pekín.

La información específica es la siguiente:

f7f333ff2a491fea9453345c06325a9e.png

  • Documento: https://arxiv.org/abs/2304.05552

  • Código: https://github.com/VDIGPKU/DynamicDet

TL; DR

d9186eb0b12818e511dc2fae8565dd7c.png

Este artículo tiene como objetivo diseñar una arquitectura dinámica de detección de objetos que logre un excelente equilibrio entre velocidad de inferencia y precisión en tareas de detección de objetos mediante la selección automática de rutas de inferencia para imágenes de diferentes niveles de dificultad. En concreto, el autor propone una arquitectura dinámica general basada en las características del detector de objetos , y diseña un enrutador adaptativo para seleccionar automáticamente la mejor ruta de salida temprana para cada imagen a detectar. Al mismo tiempo, el autor diseñó las correspondientes estrategias de entrenamiento sin hiperparámetros y estrategias de inferencia de retardo variable para la arquitectura dinámica general propuesta para lograr un entrenamiento efectivo y un despliegue de inferencia de la arquitectura dinámica anterior. Como se muestra en la figura anterior, el autor realizó experimentos en el conjunto de datos de detección de objetivos de MS COCO. Los resultados muestran que la solución propuesta supera significativamente muchos modelos de referencia y logra el equilibrio líder entre precisión y velocidad de inferencia en esta etapa.

1. Antecedentes de investigación

0aa0cf1bcb4603df0d3d86791bb4de6d.png

El cerebro humano ha inspirado muchos campos del aprendizaje profundo y la visión por computadora, y Dynamic Neural Network es un ejemplo típico. Como se muestra en la figura anterior, los humanos pueden identificar rápidamente todos los objetos en la imagen "fácil" de la izquierda, pero necesitan más tiempo para identificar los objetos en la imagen "difícil" de la derecha. En otras palabras, el cerebro humano procesa diferentes imágenes a diferentes velocidades, y esta velocidad a menudo depende de lo fácil que sea entender la imagen.

Esta característica del cerebro humano ha inspirado la investigación sobre redes neuronales dinámicas. Los investigadores han logrado una precisión y una velocidad de razonamiento extremadamente excelentes en tareas como la clasificación de imágenes y la detección de rostros seleccionando de forma adaptativa rutas de inferencia para imágenes de diferentes dificultades

Sin embargo, es bastante difícil diseñar un detector de objetos dinámico potente debido a la falta de una arquitectura de inferencia dinámica y una estrategia de salida temprana para los detectores de objetos.

En este artículo, los autores proponen un marco dinámico general para implementar el razonamiento dinámico de los detectores de objetos, a saber, DynamicDet. En primer lugar, se propone una arquitectura dinámica general basada en las características del detector de objetos , y se diseña un Router Adaptativo  para seleccionar automáticamente la mejor ruta de salida temprana para cada imagen a detectar. En segundo lugar, el autor diseñó la correspondiente estrategia de optimización sin hiperparámetros  y la estrategia de inferencia de velocidad variable ** para la arquitectura dinámica general propuesta .

2. Métodos de investigación

01c4ad526a6fd286caa9f6aa6a76ad72.png

Arquitectura dinámica genérica

El detector de objetivos generalmente consta de tres partes: la red troncal, la red del cuello, el cuello y el cabezal del detector. La red troncal (como ResNet50, Vision Transformer, etc.) se utiliza para extraer características visuales básicas y la red del cuello ( como FPN, BiFPN, etc.) se utiliza para fusionar información de características de múltiples escalas, el cabezal del detector está diseñado específicamente para predecir el tipo y la ubicación del objetivo. Como se muestra en la figura anterior, la arquitectura dinámica general del detector de objetivos mencionado en este artículo también se basa en esta arquitectura, pero la diferencia es que tiene dos redes troncales en cascada y la red de cuello y el cabezal del detector correspondientes, y entre los dos Redes troncales Enrutador dinámico insertado (Router).

Tomando el razonamiento como ejemplo, primero, la imagen a detectar extraerá las características multiescala de primer nivel a través de la primera red troncal y enviará las características multiescala al enrutador dinámico para evaluar la dificultad de la imagen:

(1) Si se determina que es una imagen "simple", las características multiescala de primer nivel se enviarán al primer conjunto de redes de cuello y cabezales detectores para generar los resultados de la detección;

(2) Si se determina que es una imagen "difícil", la imagen que se va a detectar y sus características multiescala de primer nivel se enviarán a la segunda red troncal para extraer las características multiescala de segundo nivel, y la Las funciones de escala múltiple de segundo nivel serán El segundo grupo de redes de cuello y cabezales detectores se envían para generar los resultados de la detección. Vale la pena señalar que la solución de la segunda red troncal en este artículo para procesar imágenes y funciones multiescala del nivel anterior se basa directamente en la solución de la red troncal combinada (CBNetV2).

A través del proceso anterior, las imágenes "simples" tienen características básicas extraídas por una sola red troncal (rápida pero aproximada), mientras que las imágenes "difíciles" tienen características básicas extraídas por dos redes troncales en cascada (lentas pero finas). Obviamente, esta estructura puede lograr efectivamente un equilibrio entre precisión y velocidad de inferencia. Al mismo tiempo, gracias a la generalidad de la arquitectura, cualquier detector de objetos existente se puede ampliar rápidamente y utilizar directamente esta solución.

enrutador adaptativo

Para juzgar mejor la dificultad de una imagen, el autor propuso un enrutador adaptativo e hizo un juicio de dificultad basado en la información de características de múltiples escalas de entrada.

Supongamos que las características de múltiples escalas generadas por la primera red troncal son: Para reducir la complejidad computacional del enrutador dinámico, el autor primero comprime la información para obtener las características comprimidas:

68c5ef64179a67784e62c69959212a22.png

Entre ellas se encuentran la operación de agrupación global y la operación de empalme de dimensiones de canal.

Después de eso, los autores asignan las características a las puntuaciones de dificultad a través de dos capas de mapeo lineal:

de545cab5ec2b113c179cf26a09e389a.png

Entre ellos, representan respectivamente las funciones de activación ReLU y Sigmoide, que son parámetros que se pueden aprender de la capa lineal. En este artículo, la primera capa lineal comprime el número de características en y la segunda en 1 (es decir).

Sin estrategia de entrenamiento de hiperparámetros

El autor diseñó un conjunto de estrategias de entrenamiento sin hiperparámetros para la arquitectura dinámica general propuesta anteriormente.

(1) Primero, se entrenan conjuntamente dos conjuntos de detectores de objetos en cascada en función de los datos del conjunto de entrenamiento. El objetivo del entrenamiento es

7f20876e68e267c236f9d82539cd95e8.png

Entre ellos, representan la imagen de entrada y la etiqueta real respectivamente, representan los parámetros que se pueden aprender del enésimo grupo de detectores de objetos y representan la pérdida de entrenamiento del enésimo grupo de detectores de objetos (es decir, pérdida de regresión del cuadro delimitador y pérdida de clasificación, etc. .). En este proceso, ambos conjuntos de detectores de objetivos en cascada tienen la capacidad de detectar objetivos mediante entrenamiento, por lo que sus parámetros se congelarán en entrenamientos posteriores.

(2) Posteriormente, el enrutador adaptativo se entrena en función de los datos del conjunto de entrenamiento. El autor primero muestra un enfoque ingenuo, asumiendo que el objetivo del entrenamiento es

e09d51b2cb32add3abd05c704deeb3a6.png

Entonces, la salida del enrutador adaptativo siempre tenderá al valor máximo (es decir, 1) para obtener la menor pérdida seleccionando tantas rutas de imágenes "difíciles" como sea posible. Sin embargo, esto obviamente no cumple con las expectativas del detector dinámico. .

Yendo un paso más allá, un enfoque común es agregar términos de penalización de hardware adicionales al objetivo de capacitación, como

6ed26c39ff794b18c36b04cf68b76f1f.png

Sin embargo, esto requerirá prueba y error para ajustar los hiperparámetros cuando se apliquen a diferentes detectores o diferentes escenarios de hardware, lo que conducirá a un enorme consumo de recursos.

Con este fin, el autor propone utilizar la diferencia de pérdidas entre los dos conjuntos de detectores como señal para evaluar la dificultad de la imagen y utilizarla para entrenar el enrutador adaptativo.

6edb6826e9093394591c39fd02ad7487.png

Como se muestra en la figura anterior, el autor descubrió que la diferencia de pérdida entre los dos conjuntos de detectores era menor para las imágenes "simples" y mayor para las imágenes "difíciles". Esto es intuitivo: debido a que la imagen "simple" contiene menos información, el primer grupo de detectores puede completar la tarea de detección; pero debido a que la imagen "difícil" contiene más información, es posible que el primer grupo de detectores no pueda completar la tarea de detección. Bueno, pero un segundo conjunto de detectores con mayor precisión puede detectar con precisión.

Con base en los hallazgos anteriores, el autor introduce una compensación adaptativa para recompensar al primer conjunto de detectores y castigar al segundo conjunto de detectores:

0680d8bbc87da243f53735a0aa961095.png

¿Dónde está el desplazamiento adaptativo, que es la diferencia de pérdida mediana entre los dos conjuntos de detectores en los datos del conjunto de entrenamiento ? En aplicaciones prácticas, la compensación adaptativa se puede obtener estadísticamente fuera de línea o actualizarse dinámicamente en función de los datos de capacitación durante el proceso de capacitación.

Estrategia de inferencia de retraso variable

El autor diseñó un conjunto de estrategias de razonamiento de retardo variable para la arquitectura dinámica general propuesta anteriormente.

Durante la inferencia, el enrutador adaptativo generará la puntuación de dificultad de la imagen que se va a detectar. El autor descubrió que se pueden obtener directamente una serie de compensaciones entre precisión y velocidad de inferencia estableciendo diferentes umbrales de dificultad para que el mismo detector dinámico cumpla con diferentes tiempos. requisitos demanda de retraso. Al mismo tiempo, para obtener directamente el umbral de dificultad de un retraso de inferencia específico , el autor propuso una solución simple pero efectiva.

(1) Calcule la puntuación de dificultad de todos los datos del conjunto de verificación, que es;

(2) Según el requisito de retraso específico (que se supone), utilice la siguiente fórmula para obtener el índice de dificultad:

3d3d6ed633c13b34193484e67e9fd09b.png

Entre ellos, se encuentran los retrasos de inferencia del primer grupo y del segundo grupo de detectores respectivamente;

(3) Obtenga el umbral de dificultad en el conjunto de verificación:

a915d92102b71d7a4f2038056eb3d74c.png

Entre ellos, se utiliza para encontrar el cuantil de un conjunto determinado. Vale la pena señalar que considerando que los datos del conjunto de validación y el conjunto de prueba son independientes y están distribuidos de manera idéntica, se puede aplicar directamente al conjunto de prueba.

3. Resultados experimentales

Este artículo realizó experimentos con el conjunto de datos de detección de objetivos de MS COCO. Como se muestra en la siguiente tabla, el autor utiliza los modelos de la serie YOLOv7 como punto de referencia y, en base a esto, expandió YOLOv7, YOLOv7-X y YOLOv7-W6 a detectores de objetivos dinámicos y logró una serie de resultados de compensación entre precisión. y velocidad de inferencia que superan el modelo de referencia. Por ejemplo, Dy-YOLOv7-W6/90 (el 10% de las imágenes se clasifican como "fáciles" y el 90% como "difíciles") logró un AP del 56,7% a 48 FPS, que es 17 veces más rápido que YOLOv7-D6 con una precisión similar. %; Dy-YOLOv7-W6/100 logró un 56,8 % de AP a 46 FPS, un 39 % más rápido que YOLOv7-E6E con una precisión similar.

Vale la pena señalar que, a diferencia de las soluciones de escalado de modelos convencionales, la solución de detector de objetivos dinámico propuesta en este artículo requiere solo un modelo y puede obtener directamente una serie de resultados de compensación entre precisión y velocidad de inferencia.

dc9652820b5821c285a89be3643eeec7.png

El autor también realizó experimentos con detectores de dos etapas. Los modelos de referencia son Faster R-CNN ResNet y Mask R-CNN Swin Transformer. Como se muestra en la siguiente tabla, tomando como ejemplo Dy-Mask R-CNN Swin-T/50, logró un 48,7% de AP (bbox) a 12 FPS, que es la misma velocidad que Mask R-CNN Swin-S pero la La precisión mejora en un 0,5%.

f948d0a51c3173de9e1c1c6d3bba05f8.png

Para demostrar la eficacia de la puntuación del detector dinámico de objetos, los autores muestran visualmente las puntuaciones de dificultad de diferentes imágenes en la siguiente figura. Como se puede ver en la figura, las imágenes "fáciles" generalmente contienen menos objetos, tienen ángulos de cámara regulares y fondos limpios, mientras que las imágenes "difíciles" generalmente contienen más objetos y más pequeños y tienen escenas más complejas (como bloqueos, etc.) 

8670a4574ad621a3ede10abad14e1217.png

4. Conclusión

Este artículo propone una arquitectura dinámica general para detectores de objetivos y propone un conjunto completo de procesos de entrenamiento e inferencia para obtener rápidamente detectores de objetivos dinámicos basados ​​en modelos existentes. El autor realizó suficientes experimentos basados ​​​​en múltiples detectores de objetivos típicos y los resultados muestran que el esquema propuesto puede lograr una serie de excelentes resultados de compensación entre precisión y velocidad de inferencia cuando se utiliza solo un modelo de detector de objetivos dinámico.

recordar

Haga clic en "Leer el texto original" para saltar a 00:01:15

¡Puedes ver la repetición!

 Acerca de TIEMPO AI 

AI TIME se originó en 2019, con el objetivo de impulsar el espíritu de especulación científica, invitar a personas de todos los ámbitos de la vida a explorar las cuestiones esenciales de la teoría, los algoritmos y las aplicaciones de escenarios de la inteligencia artificial, fortalecer la colisión de ideas y conectar a los académicos globales de la IA. Expertos y entusiastas de la industria, con la esperanza de En forma de debate, exploramos la contradicción entre la inteligencia artificial y el futuro de la humanidad, y exploramos el futuro del campo de la inteligencia artificial.

Hasta la fecha, AI TIME ha invitado a más de 1100 oradores nacionales y extranjeros, ha celebrado más de 550 eventos y ha sido visto por más de 6 millones de personas.

8ee9929e0941406019bd5c2db01e7d60.png

Te conozco

pase a ver

Vaya

~

1bb16b56ff9314f838195a69b1787d77.gif

¡ Haz clic para leer el texto original  y ver la repetición!

Supongo que te gusta

Origin blog.csdn.net/AITIME_HY/article/details/132614049
Recomendado
Clasificación