YOLO-S

Les chercheurs ont proposé YOLO-S , un réseau simple, rapide et efficace. Il utilise un petit extracteur de fonctionnalités avec des connexions de saut via contournement et cascade, et une couche de relais de remodelage pour faciliter la réutilisation des fonctionnalités sur les réseaux et combiner des informations de position de bas niveau avec des informations de haut niveau plus significatives.

La détection de petits objets reste une tâche difficile, en particulier lors de la recherche de solutions rapides et précises pour les applications mobiles ou en périphérie. Dans le partage suivant, certains chercheurs ont proposé YOLO-S , un réseau simple, rapide et efficace. Il utilise un petit extracteur de fonctionnalités avec des connexions de saut via contournement et cascade, et une couche de relais de remodelage pour faciliter la réutilisation des fonctionnalités sur les réseaux et combiner des informations de position de bas niveau avec des informations de haut niveau plus significatives.

La détection de petits objets dans les images aériennes est devenue un sujet de recherche brûlant de nos jours. En fait, l'émergence récente de technologies basées sur les données telles que les drones fournit une solution rentable pour une large clientèle, satisfaisant un nombre large et presque illimité d'utilisateurs en fonction de l'axe de la caméra, de la hauteur de l'avion et du type. de film utilisé besoin.

En outre, la disponibilité croissante de données de véhicules accessibles au public à partir de capteurs de satellites ou de drones a alimenté la recherche dans ce domaine. Cependant, la faible résolution des véhicules dans les images, les caractéristiques médiocres des objets minuscules, la variabilité du type, de la taille et de la couleur des véhicules, et la présence d'arrière-plans encombrés ou de facteurs atmosphériques perturbateurs posent toujours des défis au taux de détection des véhicules des réseaux de neurones convolutifs. .

De plus, la présence d'objets déroutants tels que des conteneurs d'expédition, des bâtiments ou des panneaux de signalisation peut augmenter la probabilité de faux positifs. De plus, un compromis raisonnable entre précision et latence est nécessaire. Les détecteurs d'objets traditionnels sont gourmands en mémoire et ne peuvent généralement être exécutés que sur des plates-formes centralisées hautes performances. En particulier, les détecteurs à deux étages ne conviennent pas à la détection en temps réel, tandis que les détecteurs à un étage ne fournissent des performances en temps réel que sur des ressources puissantes. Aucun d'entre eux n'est suffisamment adapté à la détection de petits objets. De plus, de nombreuses applications industrielles nécessitent que les CNN soient déployés localement sur des périphériques périphériques proches de la source de données en raison de coûts de traitement de données inférieurs, d'une vitesse plus rapide, d'un échange de données peu fiable avec des serveurs distants ou de problèmes de sécurité et de confidentialité, mais généralement caractérisé par des ressources matérielles limitées. en termes de performances, de coût, etc., et n'inclut pas les GPU. Par conséquent, des CNN rapides et légers sont obligatoires tout en conservant une précision satisfaisante même sur de petits objets. Tiny-YOLOv3 ne peut pas garantir des performances suffisantes car son backbone extrait des fonctionnalités médiocres et son échelle de sortie est grossière.

D'autres efforts de recherche échangent la précision contre la vitesse. Dans [Research on Airplane and Ship Detection of Aerial Remote Sensing Images Based on Convolutional Neural Network], une quatrième taille de sortie de 104 × 104 a été ajoutée à YOLOv3 pour réduire le champ de réception, dans DOTA (données sur la conception d'objets dans les images aériennes 3% l'amélioration de mAP est obtenue sur la base de l'ensemble), malgré une inférence plus lente. Étant donné que YOLOv3 détecte principalement de petites cibles avec une échelle de 52 × 52. [.In Proceedings of the International Conference on AI and Big Data Application] a proposé YOLO-E basé sur deux sorties 52×52 et 104×104, et a implémenté un sous-module résiduel bidirectionnel pour réduire la profondeur du réseau. Ils améliorent également la sensibilité aux emplacements des objets en remplaçant la métrique Intersection-of-Union (IoU) par GIoU et en ajoutant un nouveau terme 1-GIoU dans la fonction de perte YOLOv3. Sur VEDAI, il atteint 91,2 % mAP, près d'un cinquième aussi précis que YOLOv3, et 6,7 % plus lent. Dans [Robust Vehicle Detection in Aerial Images Based on Cascaded Convolutional Neural Networks], un détecteur en cascade basé sur l'architecture VGG16 est proposé, qui surpasse Faster R-CNN sur les ensembles de données VEDAI et Munich, mais la vitesse d'inférence est 20 à 30 % plus lente. De plus, les images aériennes à faible résolution rendent plus difficile l'extraction de caractéristiques significatives des véhicules en raison de leur apparence floue et de leur similitude avec l'arrière-plan. Dans [Joint-SRVDNet : Dans Joint Super Resolution and Vehicle Detection Network], il est démontré que l'apprentissage conjoint de deux réseaux de super-résolution et de détection peut obtenir des objets plus significatifs et une qualité de perception supérieure dans les images à super-résolution, ce qui à son tour conduit à la précision de la détection. la tâche s'est améliorée et les performances sur les images aériennes à faible résolution se rapprochent de celles des méthodes de pointe alimentées par des images à haute résolution correspondantes. Pour résoudre ce problème, un réseau conjoint de super-résolution et de détection de véhicules (Joint SRVDNet) est proposé, qui exploite les informations complémentaires de deux tâches interdépendantes de super-résolution et de détection. Le SRVDNet commun se compose de deux modules principaux : MsGAN multi-échelles pour une super-résolution d'image avec un facteur de suréchantillonnage 4× et YOLOv3 pour la détection de véhicules. Plus précisément, les auteurs démontrent que l'apprentissage conjoint des deux réseaux permet d'obtenir des objets plus significatifs et une meilleure qualité de perception dans les images en super-résolution, ce qui à son tour améliore la précision des tâches de détection et améliore la basse résolution. Les performances de l'imagerie aérienne à haute résolution sont proches à celle des méthodes de pointe existantes fournies par l'imagerie aérienne à haute résolution correspondante.

Analyse détaillée du cadre

Les chercheurs présentent AIRES (cAr detectIon fRom-hElicopter imagesS), une nouvelle base de données de véhicules composée d'images aériennes en haute définition (FHD) à une résolution de 1920×1080, transmises par le système d'imagerie WESCAM MX-15 EO/IR. logé dans un système de tourelle gyrostabilisée à quatre axes multi-capteurs monté sur le nez de l'hélicoptère de police habité AW169. L'hélicoptère vole à différentes altitudes de près de 300 mètres à 1000 mètres, avec différents angles de caméra allant d'environ 5° à 80°. Ces images ont été prises entre juin et septembre 2019 dans deux régions géographiques différentes : la Lombardie dans le nord de l'Italie et la ville d'Oslo en Norvège. L'ensemble de données se compose de 1275 images annotées avec le logiciel LabelImg [36] et contient 15247 objets annotés de vérité au sol (GT) classés en huit catégories : camionnette, camion, voiture, moto, personne, autre, bateau et voiture publique. Les statistiques sont résumées dans le tableau 1 : la catégorie majoritaire est celle des automobiles, tandis que la catégorie la moins peuplée est celle des motos à 0,5 %, et les autres catégories à 0,8 %, ces dernières comprenant les bulldozers et autres engins de terrassement utilisés sur les chantiers de construction.  Quelques images du jeu de données AIRES

Dans ce travail, deux nouvelles architectures de type YOLO sont proposées : YOLO-L et YOLO-S, dont les architectures sont présentées dans la figure ci-dessous.

Tous les détails sur le CNN proposé sont donnés dans le tableau ci-dessous, où les champs réceptifs et les foulées cumulées pour chaque couche sont également rapportés. Supposons que l'image d'entrée est redimensionnée à la taille par défaut 416 × 416. YOLO-L ne convient qu'au traitement hors ligne sur du matériel haute puissance en raison de la vitesse d'inférence limitée, il est donc principalement utilisé pour l'analyse comparative. YOLO-S, ou YOLO-small, est proposé pour déployer des réseaux efficaces, légers et précis sur les appareils périphériques. 

De plus amples détails sont fournis dans le tableau ci-dessous, où le réseau proposé est comparé à d'autres détecteurs de pointe en termes de nombre de paramètres, de volume, de BFLOP et de caractéristiques architecturales. 

Prenons YOLO-S comme exemple . Comme le montre la figure b ci-dessus, il s'agit d'un réseau minuscule et rapide. Il utilise le concept de fusion de caractéristiques et de remodelage de la couche de pénétration illustrée à la figure c pour intégrer les informations de position précises de l'amende précoce. -carte d'entités à grain Combiné avec des informations sémantiques significatives provenant de cartes d'entités profondes à faible résolution. Fondamentalement, il est basé sur la dorsale Darknet20 et remplace la couche de regroupement maximale de Tiny-YOLOv3 par des couches convolutionnelles entrelacées et des unités résiduelles dans la phase d'extraction de caractéristiques pour réduire la perte d'informations lors du sous-échantillonnage et augmenter efficacement le champ récepteur. L'épine dorsale légère composée de sept blocs résiduels évite également les opérations de convolution inutiles sur les objets détectés à petite échelle, qui pourraient autrement n'entraîner que quelques caractéristiques finales de pixels.En outre, YOLO-S utilise un sous-réseau principal avec une seule échelle de sortie de 52 × 52 et un ensemble convolutif plus petit composé de seulement 4 couches convolutives alternées 1 × 1 et 3 × 3, au lieu de 6 de YOLO-L et YOLOv3 pour une inférence plus rapide. Cela se traduit par un champ récepteur de sortie aussi grand que 101 × 101, ce qui est suffisant pour obtenir des informations contextuelles significatives autour des objets une fois que l'image source a été redimensionnée à la taille attendue par le réseau.

Enfin, les connexions de saut sont mises en œuvre en connectant latéralement les huitième, treizième et dix-neuvième couches de la dorsale, correspondant à des cartes de caractéristiques sous-échantillonnées 4 ×, 8 × et 16 ×, pour extraire des caractéristiques de localisation plus robustes. . Étant donné que ces cartes de caractéristiques présentent des résolutions différentes, un suréchantillonnage est appliqué à la dix-neuvième couche et un remodelage est appliqué à la huitième couche pour adapter chaque dimension à une forme de 52 × 52 avant concaténation.

Dans l'ensemble, la taille du modèle de YOLO-S est 87 % plus petite que celle de YOLOv3 (la taille de YOLO-S n'est que de 7,9 % de YOLOv3) et contient près de 7,853 millions de paramètres entraînables, il est donc encore 10 % plus léger que Tiny-YOLOv3. De plus, il nécessite 34,59 BFLOP, ce qui est proche de SlimYOLOv3-SPP3-50 et près de la moitié de YOLOv3, comme indiqué dans le tableau ci-dessus. Cependant, dans les expériences, le modèle proposé YOLO-S surpasse YOLOv3 en termes de précision. whaosoft  aiot  http://143ai.com

Expérimentation et visualisation

Tout d'abord, l'ensemble de données est divisé au hasard entre la formation (70 %) et les tests (30 %) par échantillonnage stratifié pour chaque classe. Ensuite, pour enrichir les statistiques disponibles lors de l'apprentissage du modèle, des techniques standard d'augmentation des données ont été activées, notamment le retournement horizontal, le redimensionnement, le recadrage et la distorsion aléatoire de la luminosité, du contraste, de la saturation et de la teinte. Cependant, le problème de surajustement dû au manque de données n'est souvent pas résolu efficacement par les méthodes d'augmentation des données, en particulier pour les classes minoritaires.

Par conséquent, des techniques dites « d'apprentissage par transfert » ont été employées afin d'exploiter les connaissances disponibles sur des bases de données accessibles au public. Ceci est particulièrement bénéfique pour la précision : plus la tâche sous-jacente d'extraction des caractéristiques préliminaires est similaire à la tâche cible d'intérêt, plus la précision réalisable est élevée. Les détails sont les suivants:

Résultats comparatifs des expériences 1 et 2 sur le jeu de données AIRES 

(a) YOLOv3 ; (b) Tiny-YOLOv3 ; (c) [Un réseau simple et efficace pour la détection de petites cibles], (d) YOLO-L ; (e) YOLO-S  

Je suppose que tu aimes

Origine blog.csdn.net/qq_29788741/article/details/131913560
conseillé
Classement