[Vision par ordinateur | Détection de cible] arxiv Computer Vision Academic Express on Target Detection (Collection d'articles du 21 juin)

Annuaire d'articles

1. Liés à la détection (14 articles)

1.1 CrossKD : Distillation des connaissances croisées pour la détection d'objets denses

CrossKD : Extraction de connaissances croisées pour la détection d'objets denses

Adresse papier :

https://arxiv.org/abs/2306.11369

insérez la description de l'image ici
La distillation des connaissances (KD) a été validée comme une technique de compression de modèle efficace pour l'apprentissage des détecteurs d'objets compacts. Les méthodes KD de pointe existantes pour la détection d'objets sont principalement basées sur l'imitation de caractéristiques, qui est généralement considérée comme meilleure que l'imitation prédictive. Dans cet article, nous montrons que l'incohérence des objectifs d'optimisation entre le signal de vérité terrain et l'objectif de distillation est une des principales raisons de l'inefficacité de l'imitation prédictive. Pour atténuer ce problème, nous proposons un schéma de distillation simple mais efficace appelé CrossKD, qui fournit une fonction intermédiaire de la tête de détection de l'élève à la tête de détection de l'enseignant. Les prédictions croisées résultantes ont ensuite été forcées d'imiter les prédictions de l'enseignant. Une telle distillation libère la tête de l'élève de la réception de signaux de supervision contradictoires provenant d'annotations de vérité au sol et des prédictions de l'enseignant, améliorant ainsi considérablement les performances de détection de l'élève. Sur MS COCO, en appliquant uniquement les prédictions de la perte simulée, notre CrossKD améliore la précision moyenne de GFL ResNet-50 de 40,2 à 43,7, surpassant toutes les méthodes KD existantes pour la détection d'objets. Le code est disponible sur www.example.com https://github.com/jbwang1997/CrossKD.

1.2 Les repères de profondeur et de DOF font un meilleur détecteur de flou de défocalisation

Les indices de profondeur et de DOF sont de meilleurs détecteurs de flou de défocalisation

Adresse papier :

https://arxiv.org/abs/2306.11334

insérez la description de l'image ici
La détection de flou de défocalisation (DBD) sépare les zones nettes et floues d'une image. Les méthodes précédentes confondaient par erreur des régions uniformes dans la mise au point avec des régions floues défocalisées, ce qui peut être dû au fait que les facteurs internes à l'origine du flou défocalisé ne sont pas pris en compte. Inspiré par les lois de la profondeur, de la profondeur de champ (DOF) et de la défocalisation, nous proposons une méthode appelée D-DFFNet, qui combine les indices de profondeur et de DOF de manière implicite. Cela permet au modèle de comprendre les phénomènes de défocalisation de manière plus naturelle. Notre méthode propose une stratégie d'extraction de caractéristiques profondes pour acquérir des connaissances en profondeur à partir d'un modèle d'estimation de profondeur monoculaire pré-formé, et utilise une perte de bord de degré de liberté pour comprendre la relation entre les degrés de liberté et la profondeur. Notre méthode surpasse les méthodes de pointe, les benchmarks publics et un grand ensemble de données de référence nouvellement collectées, EBD. Le code source et l'ensemble de données EBD sont disponibles sur : https : github.com/yuxinjin-whu/D-DFFNet.

1.3 CNN pyramidal spatio-temporel avec convolution séparable en profondeur pour la détection du clignement des yeux dans la nature

Pyramide spatio-temporelle basée sur la convolution séparable dans le sens de la profondeur CNN pour la détection des clignements dans la nature

Adresse papier :

https://arxiv.org/abs/2306.11287

insérez la description de l'image ici
La détection des clignements dans la nature joue un rôle essentiel dans la détection de la tromperie, la détection de la fatigue au volant, etc. Bien que de nombreuses tentatives aient été faites, la plupart d'entre elles ont rencontré des difficultés telles que des résolutions différentes des images de l'œil exportées lorsque la distance entre le visage et la caméra change ; ou des temps d'inférence courts pour les exigences des modèles de détection légers pour une exécution en temps réel. Dans cette étude, deux problèmes sont abordés : comment le modèle de détection des clignements peut apprendre efficacement à partir de différentes résolutions d'images oculaires dans différentes conditions ; et comment réduire la taille du modèle de détection pour un temps d'inférence plus rapide. Nous proposons d'utiliser des images d'œil d'entrée suréchantillonnées et sous-échantillonnées de la même résolution comme solution potentielle au premier problème, puis de déterminer quelle méthode d'interpolation conduit aux performances les plus élevées du modèle de détection. Pour la deuxième question, bien que le récent réseau de neurones convolutionnels spatio-temporels pour la détection des clignements des yeux ait une forte capacité à extraire des caractéristiques spatiales et temporelles, il possède toujours un grand nombre de paramètres de réseau, ce qui entraîne un temps d'inférence élevé. Par conséquent, cet article soutient que l'utilisation de convolutions séparables en profondeur au lieu de couches convolutionnelles régulières dans chaque branche est une solution viable.

1.4 À ÉVITER : Ensemble de données et simulateur de détection d'intrusions basés sur la vision des aéronefs

AVOIDDS : ensemble de données et simulateur de détection d'intrusions basés sur la vision des aéronefs

https://arxiv.org/abs/2306.11203

insérez la description de l'image ici
La conception de systèmes d'apprentissage automatique robustes reste un problème ouvert et nécessite des problèmes de référence couvrant les variations environnementales et l'évaluation des tâches en aval. Dans ce travail, nous introduisons AVOIDDS, une référence de détection d'objets réaliste pour le problème de détection et d'évitement d'aéronefs basés sur la vision. Nous fournissons un ensemble de données étiquetées de 72 000 images photoréalistes d'aéronefs intrus avec diverses conditions d'éclairage, conditions météorologiques, géométrie relative et emplacement géographique. Nous fournissons également une interface pour évaluer les modèles entraînés sur des tranches de cet ensemble de données afin d'identifier les changements de performances à mesure que les conditions environnementales changent. Enfin, nous mettons en œuvre un simulateur en boucle fermée entièrement intégré et basé sur la vision pour le problème de détection et d'évitement afin d'évaluer le modèle formé sur les tâches d'évitement de collision en aval. Cette référence nous permettra d'étudier plus avant la conception de systèmes d'apprentissage automatique robustes pour les applications critiques pour la sécurité.

1.5 Comprendre progressivement la carte de profondeur : séparation d'intervalle de distance adaptative pour la détection monoculaire d'objets 3D

Compréhension progressive des cartes de profondeur : séparation adaptative des marges de distance pour la détection monoculaire d'objets 3D

Adresse papier :

https://arxiv.org/abs/2306.10921

insérez la description de l'image ici
L'objectif de la détection monoculaire d'objets 3D est de localiser des objets dans différentes scènes avec une seule image. En raison du manque d'informations de profondeur, plusieurs techniques de détection monoculaire 3D reposant sur des cartes de profondeur auxiliaires de la tâche d'estimation de profondeur ont vu le jour. Il existe différentes manières de comprendre la représentation d'une carte de profondeur, notamment en la visualisant comme un nuage de points pseudo-LiDAR, en exploitant l'apprentissage implicite de bout en bout des informations de profondeur ou en la visualisant comme une entrée d'image. Cependant, ces méthodes présentent certains inconvénients, tels que leur dépendance à l'égard de la précision de la carte de profondeur estimée et l'utilisation sous-optimale de la carte de profondeur en raison de leur nature basée sur l'image. Bien que les méthodes basées sur LiDAR et les réseaux de neurones convolutifs (CNN) puissent être utilisés pour les nuages ​​de pseudopoints et les cartes de profondeur, respectivement, c'est toujours une alternative. Dans cet article, nous proposons un cadre appelé Adaptive Distance Interval Separation Network (ADISN), qui adopte une nouvelle perspective pour comprendre les cartes de profondeur, en tant que modalité, qui se situe entre le LiDAR et l'imagerie. Nous utilisons une méthode de séparation adaptative qui partitionne la carte de profondeur en différentes sous-cartes en fonction de la distance et traite ces sous-cartes comme une seule image pour l'extraction des caractéristiques. Après la séparation adaptative, chaque sous-carte ne contient que des pixels dans la plage d'intervalle apprise. S'il y a des objets tronqués dans cette plage, il y aura des bords incurvés évidents, que nous pouvons exploiter pour l'extraction de texture à l'aide de CNN afin d'obtenir des informations de profondeur riches en pixels. Pendant ce temps, pour atténuer l'imprécision de l'estimation de la profondeur, nous concevons un module d'incertitude. Pour utiliser les images et les cartes de profondeur, nous utilisons différentes branches pour apprendre respectivement la tâche de détection de localisation et la tâche d'apparence.

1.6 Détection robuste des défauts avec localisation contrastive

Détection robuste des défauts basée sur la localisation du contraste

Adresse papier :

https://arxiv.org/abs/2306.10720

insérez la description de l'image ici
La détection des défauts vise à détecter et localiser les régions en dehors de la distribution normale. Les travaux antérieurs s'appuient sur la normalité modélisée pour identifier les régions défectueuses, ce qui peut conduire à des capacités de généralisation sous-optimales. Cet article propose un cadre en une étape pour détecter directement les modèles défectueux, sans processus de modélisation. Cette capacité est adoptée grâce à un effort conjoint de trois parties : des réseaux antagonistes génératifs (GAN), une perte de modèle de mise à l'échelle nouvellement proposée et un réseau auxiliaire avec un cycle de masquage dynamique cohérent. Les informations explicites qui pourraient indiquer les emplacements des défauts ont été intentionnellement exclues pour éviter d'apprendre des mappages directs. Les résultats expérimentaux sur la classe de texture du jeu de données MVTec AD montrent que la méthode proposée surpasse la méthode SOTA de 2,9 % en termes de score F1 et surpasse significativement la méthode SOTA en termes de capacité de généralisation.

1.7 Fusion d'images avec prédiction de mouvement de véhicule pour la détection d'objets 3D

Détection d'objets 3D basée sur la fusion d'images et la prédiction de mouvement du véhicule

Adresse papier :

https://arxiv.org/abs/2306.10699

insérez la description de l'image ici
Dans la détection 3D basée sur LiDAR, les nuages ​​de points historiques contiennent des informations temporelles riches, ce qui est utile pour les prévisions futures. De même, la détection historique devrait faciliter la détection future. Dans cet article, nous proposons une méthode d'amélioration de la détection, FrameFusion, qui améliore les résultats de détection d'objets 3D en fusionnant des images historiques. Dans FrameFusion, nous "envoyons" l'image historique à l'image actuelle et appliquons une suppression non maximale pondérée sur les boîtes englobantes denses pour obtenir des images fusionnées avec des boîtes fusionnées. Pour les images "avant", nous utilisons un modèle de mouvement du véhicule pour estimer la pose future de la boîte englobante. Cependant, le modèle de vitesse constante couramment utilisé échoue naturellement pour les véhicules qui tournent, nous explorons donc deux modèles de mouvement de véhicule pour résoudre ce problème. Sur l'ensemble de données ouvert Waymo, notre méthode FrameFusion améliore systématiquement les performances de divers détecteurs 3D, environ 2 $ de véhicule niveau 2 APH, avec une latence négligeable, et améliore légèrement les performances de la méthode de fusion temporelle MPPNet. Nous avons également effectué une vaste sélection de modèles de mouvement expérimentaux.

1.8 Perte de régularisation énergétique équilibrée pour la détection hors distribution

Perte de régularisation d'énergie équilibrée pour la détection de non-distribution

Adresse papier :

https://arxiv.org/abs/2306.10485

insérez la description de l'image ici
Dans le domaine de la détection hors distribution (OOD), les méthodes précédentes utilisant des données auxiliaires comme données OOD ont montré des performances prometteuses. Cependant, cette méthode fournit une perte égale à toutes les données auxiliaires pour les distinguer des inliers. Cependant, selon notre observation, il existe un déséquilibre général dans la distribution des données OOD auxiliaires entre les classes dans diverses tâches. Nous proposons une perte de régularisation énergétique équilibrée qui est simple, mais généralement efficace pour une variété de tâches. Notre perte de régularisation d'énergie équilibrée exploite des données auxiliaires avec différentes probabilités a priori de classes pour traiter les données OOD déséquilibrées en classe. Son concept principal est de régulariser les échantillons auxiliaires de la classe majoritaire et plus sévèrement ceux de la classe minoritaire. Notre méthode est plus performante que la perte de régularisation d'énergie antérieure dans la segmentation sémantique, la classification d'images à longue traîne et la détection OOD dans la classification d'images. De plus, notre méthode atteint des performances de pointe dans deux tâches : la segmentation sémantique et la détection OOD dans la classification d'images à longue traîne. Le code est disponible sur www.example.com https://github.com/hyunjunChhoi/Balanced_Energy.

1.9 Ladder : un logiciel pour étiqueter des images, détecter des objets et déployer des modèles de manière récurrente pour la détection d'objets

Ladder : un logiciel pour étiqueter des images, détecter des objets et déployer de manière itérative des modèles pour la détection d'objets

Adresse papier :

https://arxiv.org/abs/2306.10372

insérez la description de l'image ici

La détection d'objets (OD) est une technique de vision par ordinateur qui permet la localisation et la classification d'objets dans des images et des vidéos, ce qui a le potentiel d'améliorer considérablement l'efficacité de l'agriculture de précision. Pour simplifier le processus d'application OD, nous avons développé Ladder, un logiciel qui fournit aux utilisateurs une interface utilisateur graphique (GUI) conviviale qui permet un étiquetage efficace des ensembles de données de formation, la formation de modèles OD et le déploiement de modèles formés. Ladder conçoit un cadre récurrent interactif qui utilise les prédictions de modèles OD pré-entraînés comme étiquetage initial de l'image. Après avoir ajouté des étiquettes humaines, les images nouvellement étiquetées peuvent être ajoutées aux données de formation pour recycler le modèle OD. À l'aide de la même interface graphique, les utilisateurs peuvent également déployer un modèle OD bien formé pour détecter de nouvelles images en chargeant le fichier de poids du modèle. Nous avons développé un modèle d'apprentissage en profondeur utilisant Ladder pour accéder à la rouille jaune du blé dans des images RVB (rouge, vert, bleu) capturées par des véhicules aériens sans pilote (UAV). Ladder utilise OD pour évaluer directement la gravité variable de la rouille jaune du blé dans les images de terrain sans avoir besoin d'un photo-assemblage d'images basées sur un drone. Les précisions pour les scores de gravité faible, moyenne et élevée étaient de 72 %, 50 % et 80 %, respectivement. Ce cas montre comment Ladder peut atteindre la DO dans l'agriculture de précision et la sélection végétale.

1.10 Une nouvelle perspective pour la détection d'événement de frappe de volant

Une nouvelle perspective pour la détection des coups de badminton

Adresse papier :

https://arxiv.org/abs/2306.10293

insérez la description de l'image ici
Une nouvelle méthode de détection d'événements de frappe de volant est introduite. Plutôt que de s'appuyer sur des méthodes génériques, nous capturons l'action au bâton du joueur par inférence dans une série d'images. Pour apprendre les caractéristiques des événements à succès dans les clips vidéo, nous utilisons spécifiquement un modèle d'apprentissage en profondeur appelé SwingNet. Le modèle vise à capturer les caractéristiques et les modèles pertinents liés au comportement de frappe au badminton. En formant SwingNet sur les clips vidéo fournis, nous visons à permettre au modèle d'identifier et d'identifier avec précision les cas d'événements de frappe de balle en fonction de leurs caractéristiques uniques. De plus, nous appliquons des techniques de traitement vidéo spécifiques pour extraire les caractéristiques a priori des vidéos, ce qui réduit considérablement la difficulté d'apprentissage du modèle. La méthode proposée fournit non seulement une approche intuitive et conviviale, mais propose également une nouvelle perspective pour la tâche de détection des événements de frappe au badminton. Le code source sera disponible sur https://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detection sur www.example.com.

1.11 Réseau d'interaction spatio-temporelle multi-échelles pour la détection d'anomalies vidéo

Réseau d'interaction spatio-temporelle multi-échelles pour la détection d'anomalies vidéo

Adresse papier :

https://arxiv.org/abs/2306.10239

insérez la description de l'image ici
La détection d'anomalies vidéo (VAD) est une tâche importante mais difficile dans le traitement du signal. Étant donné que certaines anomalies ne peuvent pas être détectées en analysant uniquement des informations temporelles ou spatiales, l'interaction entre les deux types d'informations est considérée comme essentielle pour la VAD. Cependant, les architectures actuelles à deux flux limitent l'interaction entre les deux types d'informations au goulot d'étranglement de l'auto-encodeur, ou intègrent des pixels d'arrière-plan non associés à des anomalies dans l'interaction. A cette fin, nous proposons un réseau multi-échelle d'interaction spatio-temporelle (MSTI-Net) VAD. Premièrement, pour porter une attention particulière aux objets et coordonner les différences sémantiques significatives entre deux informations, nous proposons un module de fusion spatio-temporelle basé sur l'attention (ASTM) comme alternative à la fusion directe traditionnelle. De plus, nous injectons plusieurs connexions basées sur ASTM entre l'apparence et les trajectoires de mouvement du réseau à deux flux pour faciliter les interactions spatio-temporelles à toutes les échelles possibles. Enfin, les informations régulières apprises à partir de plusieurs échelles sont enregistrées en mémoire pour améliorer la discrimination entre les événements anormaux et normaux pendant la phase de test. Les résultats expérimentaux sur trois ensembles de données standard valident l'efficacité de la méthode, avec une AUC de 96,8 % pour UCSD Ped 2, 87,6 % pour CUHK Avenue et 73,9 % pour l'ensemble de données ShanghaiTech.

1.12 FABLE : Processus d'automatisation de la détection des anomalies de la structure

FABLE : Un processus automatisé pour la détection d'anomalies structurelles

Adresse papier :

https://arxiv.org/abs/2306.10089

insérez la description de l'image ici
Les anomalies non supervisées dans l'industrie ont été un sujet de grand intérêt et un tremplin vers des processus d'automatisation industrielle performants. La grande majorité des méthodes orientées vers l'industrie se concentrent sur l'apprentissage à partir de bons échantillons pour détecter les anomalies, bien que certains scénarios industriels spécifiques nécessitent une formation moins spécifique et nécessitent donc une généralisation de la détection des anomalies. Un cas d'utilisation évident est la détection d'anomalies de tissus, où nous devons faire face à une très large gamme de couleurs et de types de textiles et ne pouvons pas envisager d'arrêter la chaîne de production pour la formation. Dans cet article, nous proposons un processus automatisé, processus d'apprentissage spécifique pour la détection généralisée d'anomalies dans le domaine de la détection de défauts de texture de tissus industriels. Combinant capacité de généralisation et processus d'apprentissage, il permet une détection et une segmentation rapides et précises des anomalies. Les principales contributions de cet article sont les suivantes : une méthode de détection d'anomalies de texture généralisée au domaine qui atteint des performances de pointe, une méthode d'entraînement spécifique rapide pour une bonne extraction d'échantillons, une méthode d'auto-évaluation basée sur la création de défauts personnalisés et détection automatique Tissu déjà vu pour éviter le recyclage.

1.13 Apprentissage en profondeur fondé sur les connaissances pour la détection et la quantification des lacunes à l'aide de l'IRM cérébrale multisite

Apprentissage profond basé sur des connaissances antérieures pour la détection et la quantification de régions de défauts de résonance magnétique multi-sites dans le cerveau

Adresse papier :

https://arxiv.org/abs/2306.10622

insérez la description de l'image ici
Les lacunes d'origine vasculaire putative, également connues sous le nom d'infarctus lacunaires, sont importantes dans l'évaluation de la maladie des petits vaisseaux cérébraux et des troubles cognitifs tels que la démence. Cependant, le classement visuel des lacunes à partir des données d'imagerie est difficile, prend du temps et dépend du grade en raison de leur petite taille, de leur rareté et de leur mimétisme. Bien qu'il ait été démontré que les développements récents des algorithmes automatisés permettent une détection plus rapide des lacunes tout en maintenant la sensibilité, ils ont également montré un nombre élevé de faux positifs, ce qui les rend peu pratiques pour une utilisation en pratique clinique ou dans des études à grande échelle. Ici, nous développons un nouveau cadre qui, en plus de la détection lacunaire, génère un score de charge de classification. Ce score peut fournir une estimation plus réaliste de la présence de lacunes, ce qui simplifie et accélère efficacement l'évaluation par imagerie des lacunes. Nous émettons l'hypothèse que la combinaison des scores de détection et de classification rend le programme moins sensible aux étiquettes bruyantes.

1.14 Formation de faisceau radar MIMO guidée par la vision pour une meilleure détection des signes vitaux dans les foules

Formation de faisceau radar MIMO guidée par la vision pour une détection améliorée des signes vitaux de la foule

Adresse papier :

https://arxiv.org/abs/2306.10515

insérez la description de l'image ici
Le radar, une technique de télédétection, est utilisé depuis des décennies pour analyser l'activité humaine. Malgré toutes les caractéristiques importantes de sensibilité au mouvement, de protection de la vie privée, de pénétration, etc., les radars ont une liberté spatiale limitée par rapport aux capteurs optiques, ce qui rend difficile la détection d'environnements encombrés sans information préalable. Dans cet article, nous développons un nouveau système à double détection dans lequel le capteur de vision est utilisé pour diriger la formation de faisceau numérique dans un radar à entrées multiples et sorties multiples (MIMO). De plus, nous développons un algorithme d'étalonnage pour aligner les deux types de capteurs et montrons que le système dual calibré atteint une précision d'environ deux centimètres avec un champ de vision de 7 5 ∘ 75^\circ dans un espace tridimensionnel7 5∘par 6 5 ∘ 65^\circ6 5 et la portée est de deux mètres. Enfin, nous montrons que la méthode proposée est capable de détecter les signes vitaux simultanément pour un ensemble dense de sujets, assis et debout, dans un environnement encombré, ce qui met en évidence une direction prometteuse dans des contextes réalistes : la détection des signes vitaux.

Je suppose que tu aimes

Origine blog.csdn.net/wzk4869/article/details/131333449
conseillé
Classement