Mettez "tout suivre" sur un drone ! Le MIT et l'Université Harvard proposent un modèle de suivi en temps réel FAn dans un environnement ouvert

Lien de l'article : https://arxiv.org/abs/2308.05737
Dépôt de code : https://github.com/alaamaalouf/FollowAnything

La détection et le suivi de cibles sont très importants pour les robots et les agents intelligents incarnés. Ensemble, ils constituent l'unité de perception externe de base du système robotique. Récemment, les algorithmes de perception de tout représentés par Segment Anything (SAM) sont entrés dans la phase de vision par ordinateur et ont attiré une large attention.

Cet article présente un document de recherche réalisé conjointement par le MIT et l'Université Harvard, qui propose un système robotique qui détecte, suit et suit n'importe quel objet en temps réel, appelé « follow everything » (FAn) . Semblable à SAM, FAn est un modèle à vocabulaire ouvert et multimodal qui ne se limite pas aux exemples de catégories participant à la formation. Il peut cliquer et suivre des cibles dans la vidéo en fonction du texte saisi, des images ou de l'interaction de la souris pendant l'inférence . Afin d'obtenir cet effet, l'auteur a introduit de grands modèles de langage visuel de base tels que CLIP, DINO et SAM dans FAn pour interroger et faire correspondre le masque de segmentation et le cadre de délimitation de la cible de suivi dans la séquence vidéo d'entrée. L'auteur a également effectué la détection d'objets masqués pendant le processus de suivi . Le post-traitement a été effectué dans le but d'affecter la qualité de l'image .

La vidéo ci-dessous montre l'effet de suivi du FAn déployé sur un drone pour véhicules terrestres. Lorsque le véhicule est bloqué par d'autres objets et perd sa cible, le FAn peut rapidement réaliser une détection et un suivi secondaires. Compte tenu de l'aspect pratique du système FAn, l'auteur lui a réservé un traitement léger spécial . FAn peut être déployé en douceur sur des micro-drones (MAV) et des cartes graphiques d'ordinateurs portables légers (mémoire vidéo 6-8 Go), et peut réaliser un suivi en temps réel. effet de 6-20fps.

couverture animée

couverture animée

01. Introduction

L’auteur de cet article estime que les technologies de suivi existantes présentent encore des lacunes évidentes :

1) Le modèle entraîné ne peut gérer que des catégories d'ensembles fermés, ce qui signifie que l'application de ce modèle à un système robotique ne peut gérer qu'un ensemble fixe de catégories d'objets, ce qui limite l'adaptabilité du robot à l'environnement externe .

2) De plus, les objets d'intérêt ne peuvent être spécifiés que via des balises de classe, ce qui constitue une méthode d'interaction très peu intuitive pour les utilisateurs , en particulier dans des scénarios tels que le suivi vidéo qui nécessitent un retour en temps réel.

À l'heure actuelle, de nombreux grands modèles avec des résultats exceptionnels sont apparus dans la communauté du deep learning. Les grands modèles CLIP [1] et DINO [2] basés sur le pré-entraînement de données multimodales ont montré des performances étonnantes dans des scénarios ouverts. Il doit être formé pour une tâche spécifique et la cible d'intérêt peut être capturée selon les spécifications de l'utilisateur lors de l'inférence.

La figure ci-dessus montre l'effet de fonctionnement du système FAn sur un cadre de saisie contenant 4 baleines. L' utilisateur peut choisir de cliquer sur la baleine ou sur toute la zone d'eau . Tout d'abord, FAn appelle SAM pour extraire plusieurs masques, puis classe chaque masque dans l'objet auquel il fait référence à partir de la requête donnée (eau/baleine) en fonction des fonctionnalités de DINO. Enfin, la baleine la plus proche de la requête en cours est détectée en attribuant des descripteurs de fonctionnalités DINO . Grâce à la conception ci-dessus, FAn a mis en œuvre un système de suivi en temps réel ouvert, multimodal et très flexible pour tout. En plus de sélectionner la zone d'intérêt par des clics de souris, comme le montre l'exemple ci-dessus, FAn fournit également du texte de saisie. des invites, des images et des cadres de délimitation, ainsi que d'autres méthodes interactives.

02. Méthode de cet article

Du point de vue de la mise en œuvre globale de FAn, il utilise une combinaison des modèles ViT les plus avancés actuellement, les unifie en un seul système et effectue spécifiquement une optimisation en temps réel. Comme le montre la figure ci-dessous, FAn utilise SAM pour la segmentation des cibles de scène et utilise DINO et CLIP pour l'extraction générale des caractéristiques visuelles. Pour le module de suivi, l'auteur utilise le framework SiamMask[3] pour la mise en œuvre . En outre, l'auteur a également conçu un mécanisme de détection secondaire pour résoudre le problème de l'occlusion ou de la perte de suivi des objets. Ce mécanisme peut fonctionner de manière autonome ou sous guidage manuel pour garantir que la cible est reconnue et suivie à nouveau avec succès, maintenant ainsi le processus de suivi. continuité de

2.1 Détection et segmentation d'objets de vocabulaire ouvert

2.2 Détection rapide sur les appareils informatiques de pointe

Étant donné que les versions de base de modèles tels que SAM et DINO mettent beaucoup de temps à traiter les images vidéo, elles ne sont pas adaptées au déploiement sur des appareils aéroportés en temps réel. Afin de résoudre le goulot d'étranglement des performances de calcul, l'auteur a proposé d'obtenir une détection approximative par regroupement des fonctionnalités de DINO En conséquence, ces résultats de détection approximatifs peuvent être affinés davantage grâce à des calculs itératifs continus , permettant à l'ensemble du système d'obtenir l'effet de fonctionner à des fréquences d'images élevées.

Afin d'accélérer davantage la détection et la segmentation, l'auteur a utilisé deux stratégies d'optimisation de modèle pour traiter le modèle DINO ViT, la quantification et le traçage . La quantification peut réduire la précision des valeurs du modèle, réduisant ainsi les besoins en mémoire et la complexité de calcul. Le traçage est une technique d'optimisation alternative qui convertit les graphiques de calcul dynamique en représentations graphiques statiques, permettant une parallélisation efficace des calculs de graphiques modèles . Le tableau ci-dessus montre les informations d'exécution du DINO optimisé et d'autres modèles dans le système FAn. On peut voir que l'indice FPS du modèle traité par quantification et traçage a été considérablement amélioré.

2.3 Détection secondaire des objets perdus

Si l'objet de suivi est perdu en raison d'une occlusion ou d'un mouvement soudain de la cible, le système FAn lancera automatiquement un processus de détection secondaire, qui est principalement réalisé en stockant de manière croisée la trajectoire de la cible . Comme le montre la figure ci-dessous, FAn stockera d'abord les caractéristiques DINO de la cible de suivi actuelle. Une fois la cible perdue, FAn obtiendra le masque historique du tracker. Pour chaque masque, calculez d'abord le descripteur DINO de la même manière que avant, et ajoutez-le. Comparez avec les descripteurs pré-calculés et si une grande similarité est obtenue, continuez à suivre .

03. Résultats expérimentaux

Le système matériel de l'expérience de cet article est un quadricoptère équipé d'une caméra RVB. L'avion est personnalisé à l'aide du logiciel de contrôle de vol Pixhawk. L'avion est illustré dans la figure ci-dessous. Il utilise un système de transmission numérique Herelink pour transmettre les données de la caméra et d'autres données de télémétrie directement à une station de base informatique au sol (équipée d'un GPU NVIDIA GeForce RTX 2070). La station de base au sol exécute l'algorithme de suivi FAn sur les données reçues et envoie des commandes de contrôle au quadricoptère via Mavlink .

Pour le test de performance de fonctionnement en temps réel du système FAn, l'auteur a utilisé Grounded-SAM comme méthode de base pour mener des expériences comparatives . Le tableau suivant montre les résultats expérimentaux. On peut voir que la taille de trame d'entrée de cette méthode est de 320 × 240, 320 × 240 et 640 × 480, 640 × 480. Les performances dans les deux cas sont meilleures que celles de Grounded-SAM.

L'auteur montre l'effet de la détection automatique par FAn des images basse résolution sur la base de requêtes de texte dans la figure ci-dessous. Dans la figure (b), en raison de la faible résolution de l'image et de la zone de masque du drone trop petite, la méthode de cet article est incorrecte. remplace le texte de la requête. "Drone" correspond à l'intégralité du masque d'arrière-plan . Afin de résoudre l'ensemble du problème, l'auteur a directement supprimé le masque d'arrière-plan avec une zone plus grande. Comme le montrent les figures (c et d) , FAn peut localiser avec précision le drone.

Afin de tester davantage l'effet de détection zéro-shot de FAn, l'auteur a sélectionné des données en dehors de la catégorie de formation définie pour les tests et a essayé d'utiliser SAM+CLIP pour une détection en temps réel via des invites de texte . Les scénarios de test ont été divisés en plusieurs catégories. , (1) Détection standard, telle que « détecter la baleine ». (2) Détection basée sur le raisonnement de la scène. De telles tâches nécessitent une bonne compréhension de la scène, comme « détecter le garçon qui tient une baleine ». (3) Détection basée sur des attributs spéciaux. Ce type de tâche nécessite de trouver des objets avec des attributs spécifiques, tels que « détection de chiens blancs ». (4) Détection basée sur des connaissances préalables particulières, ce type de tâche nécessite une connaissance préalable d'un objet spécifique, tel que son nom/surnom, tel que « Détecter Messi/Cristiano Ronaldo ». (5) Détection basée sur des connaissances et des attributs préalables particuliers, ce scénario peut être considéré comme une combinaison des deux premières situations, comme la « détection des joueurs du Real Madrid ». La figure ci-dessous montre l'effet de détection visuelle de cette expérience.

04. Résumé

Cet article propose une nouvelle méthode de « tout percevoir », appelée système FAn, qui combine de grands modèles multimodaux avec des méthodes générales de segmentation visuelle, de détection et de suivi, et réduit considérablement le coût grâce à une série de stratégies d'optimisation du raisonnement du modèle. difficulté de déployer des modèles SOTA dans le champ visuel sur des systèmes robotiques temps réel . Basé sur la perception du vocabulaire ouvert et les capacités de traitement de l'information multimodale des grands modèles multimodaux, FAn possède une forte adaptabilité environnementale et fournit une variété de méthodes d'interaction utilisateur flexibles.

référence

[1] A. Radford, JW Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal,
G. Sastry, A. Askell, P. Mishkin, J. Clark et al., « Apprentissage de modèles visuels transférables de la supervision du langage naturel », dans
Conférence internationale sur l’apprentissage automatique. PMLR, 2021, p. 8748-8763.

[2] M. Caron, H. Touvron, I. Misra, H. Jegou, J. Mairal, P. Bojanowski et A. Joulin, « Propriétés émergentes des transformateurs de vision auto-supervisés », dans Actes de l'IEEE/CVF conférence internationale sur la vision par ordinateur, 2021, pp. 9650-9660.

[3] Q. Wang, L. Zhang, L. Bertinetto, W. Hu et PH Torr, « Suivi et segmentation rapides des objets en ligne : une approche unificatrice », dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2019


  À propos de la communauté d'intelligence artificielle TechBeat

TechBeat (www.techbeat.net) est affilié à Jiangmen Venture Capital et est une communauté de croissance qui rassemble les élites chinoises mondiales de l'IA.

Nous espérons créer davantage de services et d’expériences professionnels pour les talents en IA, accélérer et accompagner leur apprentissage et leur croissance.

Nous espérons que cela deviendra un lieu privilégié pour vous permettre d'acquérir des connaissances de pointe en IA, un terrain fertile pour partager vos derniers travaux et une base pour améliorer et combattre des monstres sur la voie de l'avancement de l'IA !

Introduction plus détaillée >> TechBeat, une communauté d'apprentissage et de croissance qui rassemble les élites chinoises mondiales de l'IA

Acho que você gosta

Origin blog.csdn.net/hanseywho/article/details/132795501
Recomendado
Clasificación