¡Pon "rastrear todo" en un dron! El MIT y la Universidad de Harvard proponen un modelo de seguimiento en tiempo real FAn en un entorno abierto

Enlace del artículo: https://arxiv.org/abs/2308.05737
Repositorio de código: https://github.com/alaamaalouf/FollowAnything

La detección y el seguimiento de objetivos son muy importantes para los robots y los agentes inteligentes incorporados y juntos constituyen la unidad básica de percepción externa del sistema robótico. Recientemente, los algoritmos de percepción de todo representados por Segment Anything (SAM) han entrado en la etapa de la visión por computadora y han atraído una atención generalizada.

Este artículo presenta un trabajo de investigación realizado conjuntamente por el MIT y la Universidad de Harvard, que propone un sistema robótico que detecta, rastrea y sigue cualquier objeto en tiempo real, llamado "seguir todo" (FAn) . Similar a SAM, FAn es un modelo multimodal y de vocabulario abierto que no se limita a las categorías de muestra que participan en el entrenamiento. Puede hacer clic y rastrear objetivos en el video según el texto ingresado, las imágenes o la interacción del mouse durante la inferencia . Para lograr este efecto, el autor introdujo grandes modelos de lenguaje visual básico como CLIP, DINO y SAM en FAn para consultar y hacer coincidir la máscara de segmentación y el cuadro delimitador del objetivo de seguimiento en la secuencia de video de entrada. El autor también realizó la detección de objetos ocluidos durante el proceso de seguimiento y realizó un posprocesamiento con el objetivo de afectar la calidad de la imagen .

El siguiente video muestra el efecto de seguimiento de FAn desplegado en un dron para vehículos terrestres. Cuando el vehículo es bloqueado por otros objetos y pierde su objetivo, FAn puede lograr rápidamente una detección y seguimiento secundarios. Teniendo en cuenta la practicidad del sistema FAn, el autor le ha dado un tratamiento liviano especial.FAn se puede implementar sin problemas en micro drones (MAV) y tarjetas gráficas livianas para computadoras portátiles (memoria de video de 6 a 8 GB) y puede lograr un seguimiento en tiempo real. efecto de 6-20 fps.

portada animada

portada animada

01. Introducción

El autor de este artículo cree que las tecnologías de seguimiento existentes todavía tienen algunas deficiencias obvias:

1) El modelo entrenado solo puede manejar categorías de conjuntos cerrados, lo que significa que aplicar este modelo a un sistema de robot solo puede manejar un conjunto fijo de categorías de objetos, lo que limita la adaptabilidad del robot al entorno externo .

2) Además, los objetos de interés solo se pueden especificar mediante etiquetas de clase, lo cual es un método de interacción muy poco intuitivo para los usuarios , especialmente en escenarios como el seguimiento de video que requieren retroalimentación en tiempo real.

En la actualidad, han aparecido en la comunidad de aprendizaje profundo muchos modelos grandes con resultados sobresalientes. Los modelos grandes CLIP [1] y DINO [2] basados ​​en el entrenamiento previo de datos multimodales han mostrado un rendimiento sorprendente en escenarios abiertos. Debe entrenarse para una tarea específica y el objetivo de interés se puede capturar de acuerdo con las especificaciones del usuario durante la inferencia.

La figura anterior muestra el efecto de operación del sistema FAn en un cuadro de entrada que contiene 4 ballenas. El usuario puede elegir si hacer clic en la ballena o en toda el área del agua . Primero, FAn llama a SAM para extraer múltiples máscaras y luego clasifica cada máscara en el objeto al que se refiere de la consulta dada (agua/ballena) según las características de DINO. Finalmente, la ballena más cercana a la consulta actual se detecta asignando descriptores de características DINO . A través del diseño anterior, FAn ha implementado un sistema de seguimiento en tiempo real abierto, multimodal y altamente flexible para todo. Además de seleccionar el área de interés mediante clics del mouse como se muestra en el ejemplo anterior, FAn también proporciona texto de entrada indicaciones, imágenes y cuadros delimitadores y otros métodos interactivos.

02. Método de este artículo.

Desde la perspectiva de la implementación general de FAn, utiliza una combinación de los modelos ViT más avanzados actualmente, los unifica en un solo sistema y realiza específicamente una optimización en tiempo real. Como se muestra en la figura siguiente, FAn usa SAM para la segmentación de objetivos de escena y usa DINO y CLIP para la extracción de características visuales generales. Para el módulo de seguimiento, el autor usa el marco SiamMask [3] para la implementación . Además, el autor también diseñó un mecanismo de detección secundario para resolver el problema de la oclusión o pérdida de seguimiento de objetos. Este mecanismo puede ejecutarse de forma autónoma o bajo guía manual para garantizar que el objetivo sea reconocido y rastreado nuevamente con éxito, manteniendo el proceso de seguimiento. de

2.1 Detección y segmentación de objetos de vocabulario abierto

2.2 Detección rápida en dispositivos informáticos de vanguardia

Dado que las versiones básicas de modelos como SAM y DINO tardan mucho en procesar cuadros de video, no son adecuadas para su implementación en dispositivos aéreos en tiempo real. Para resolver el cuello de botella en el rendimiento computacional, el autor propuso obtener una detección aproximada mediante agrupando funciones DINO Como resultado, estos resultados de detección aproximados se pueden refinar aún más mediante cálculos iterativos continuos , lo que permite que todo el sistema logre el efecto de ejecutarse a altas velocidades de fotogramas.

Para acelerar aún más la detección y la segmentación, el autor utilizó dos estrategias de optimización del modelo, cuantificación y seguimiento, para procesar el modelo DINO ViT . La cuantificación puede reducir la precisión de los valores en el modelo, reduciendo así los requisitos de memoria y la complejidad computacional. El rastreo es una técnica de optimización alternativa que convierte gráficos de cálculo dinámico en representaciones de gráficos estáticos, lo que permite una paralelización eficiente de los cálculos de gráficos de modelos . La tabla anterior muestra la información de tiempo de ejecución del DINO optimizado y otros modelos en el sistema FAn. Se puede ver que el índice FPS del modelo procesado por cuantificación y rastreo se ha mejorado significativamente.

2.3 Detección secundaria de objetos perdidos

Si el objeto de seguimiento se pierde debido a una oclusión o un movimiento repentino del objetivo, el sistema FAn iniciará automáticamente un proceso de detección secundaria, que se logra principalmente mediante el almacenamiento cruzado de la trayectoria del objetivo . Como se muestra en la siguiente figura, FAn primero almacenará las características DINO del objetivo de seguimiento actual. Una vez que se pierda el objetivo, FAn obtendrá la máscara histórica del rastreador. Para cada máscara, primero calcule el descriptor DINO de la misma manera que antes y agréguelo. Compare con descriptores calculados previamente y, si se obtiene una gran similitud, siga realizando el seguimiento .

03. Resultados experimentales

El sistema de hardware del experimento de este artículo es un cuadricóptero equipado con una cámara RGB. La aeronave se personaliza mediante el software de control de vuelo Pixhawk. La aeronave se muestra en la siguiente figura. Utiliza un sistema de transmisión digital herelink para transmitir datos de la cámara y otros datos de telemetría directamente a una estación base informática terrestre (equipada con una GPU NVIDIA GeForce RTX 2070). La estación base terrestre ejecuta el algoritmo de seguimiento FAn en los datos recibidos y envía comandos de control al cuadricóptero a través de Mavlink .

Para la prueba de rendimiento de ejecución en tiempo real del sistema FAn, el autor utilizó Grounded-SAM como método de referencia para realizar experimentos comparativos . La siguiente tabla muestra los resultados experimentales. Se puede ver que el tamaño del marco de entrada de este método es 320 ×240, 320 × 240 y 640 × 480, 640 × 480. El rendimiento en ambos casos es mejor que Grounded-SAM.

El autor muestra el efecto de la detección automática de imágenes de baja resolución de FAn basándose en consultas de texto en la siguiente figura. En la figura (b), debido a la baja resolución de la imagen y el área de la máscara del dron es demasiado pequeña, el método en este artículo es incorrecto reemplaza el texto de la consulta. "Drone" coincide con toda la máscara de fondo . Para resolver todo el problema, el autor eliminó directamente la máscara de fondo con un área más grande. Como se muestra en las Figuras (cyd) , FAn puede localizar con precisión el dron.

Para probar más a fondo el efecto de detección de disparo cero de FAn, el autor seleccionó datos fuera de la categoría de entrenamiento establecida para la prueba e intentó utilizar SAM+CLIP para la detección en tiempo real a través de mensajes de texto.Los escenarios de prueba se dividieron en múltiples categorías. , (1) Detección estándar, como "detectar ballena". (2) Detección basada en el razonamiento de la escena. Tales tareas requieren una buena comprensión de la escena, como "detectar al niño que sostiene una ballena". (3) Detección basada en atributos especiales: este tipo de tarea requiere encontrar objetos con atributos específicos, como "detectar perros blancos". (4) Detección basada en conocimientos previos especiales, este tipo de tarea requiere conocimiento previo de un objeto específico, como su nombre/apodo, como por ejemplo "Detectar Messi/Cristiano Ronaldo". (5) Detección basada en conocimientos y atributos previos especiales, este escenario puede verse como una combinación de las dos primeras situaciones, como "detectar jugadores del Real Madrid". La siguiente figura muestra el efecto de detección visual de este experimento.

04. Resumen

Este artículo propone un nuevo método para "percibir todo", llamado sistema FAn, que combina grandes modelos multimodales con métodos generales de segmentación visual, detección y seguimiento, y reduce en gran medida el costo a través de una serie de estrategias de optimización del razonamiento del modelo. dificultad de implementar modelos SOTA en el campo visual en sistemas robóticos en tiempo real . Basado en la percepción de vocabulario abierto y las capacidades de procesamiento de información multimodal de los grandes modelos multimodales, FAn tiene una gran adaptabilidad ambiental y proporciona una variedad de métodos flexibles de interacción del usuario.

referencia

[1] A. Radford, JW Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal,
G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Aprendizaje de modelos visuales transferibles de la supervisión del lenguaje natural”, en
la conferencia internacional sobre aprendizaje automático. PMLR, 2021, págs. 8748–8763.

[2] M. Caron, H. Touvron, I. Misra, H. Jegou, J. Mairal, P. Bojanowski y A. Joulin, “Propiedades emergentes en transformadores de visión autosupervisados”, en Actas del IEEE/CVF conferencia internacional sobre visión por computadora, 2021, págs. 9650–9660.

[3] Q. Wang, L. Zhang, L. Bertinetto, W. Hu y PH Torr, “Segmentación y seguimiento rápido de objetos en línea: un enfoque unificador”, en Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2019


  Acerca de la comunidad de inteligencia artificial TechBeat

TechBeat (www.techbeat.net) está afiliado a Jiangmen Venture Capital y es una comunidad en crecimiento que reúne a las élites chinas globales de IA.

Esperamos crear más servicios y experiencias profesionales para los talentos de IA, acelerar y acompañar su aprendizaje y crecimiento.

¡Esperamos que esto se convierta en un terreno elevado para que aprendas conocimientos de IA de vanguardia, un terreno fértil para compartir tus últimos trabajos y una base para mejorar y luchar contra monstruos en el camino hacia el avance de la IA!

Introducción más detallada >> TechBeat, una comunidad de aprendizaje y crecimiento que reúne a las élites globales de IA chinas

Supongo que te gusta

Origin blog.csdn.net/hanseywho/article/details/132795501
Recomendado
Clasificación