Baidu Flying Paddle Zero-Basic Practice Deep Learning Target Detection Series Notes d'étude
Tâche de détection de cible Objectif : Catégorie + Emplacement cible
Les principaux problèmes rencontrés :
1. Comment générer des régions candidates 2. Comment extraire les caractéristiques de l'image
Table des matières
Processus de développement de la détection de cible :
Actuellement, il existe principalement deux directions :
(1):Sans ancre
L’une est une méthode basée sur le point central et l’autre est une méthode basée sur un cadre de délimitation.
1. La méthode basée sur le point central considère généralement chaque pixel comme la possibilité du point central de la cible et prédit la taille et la catégorie de la cible sur cette base.
2. La méthode basée sur le cadre englobant prédit le cadre englobant de l'objet directement à partir de la carte des caractéristiques sans avoir besoin d'un cadre d'ancrage prédéfini.
(2):Basé sur l'ancre
Utilisez la zone d'ancrage prédéfinie (Anchor Box) ou la zone antérieure (Prior Box) pour prédire la position et la taille de la cible.
Bases de la détection d'objets :
(1) Boîte englobante bbox
La bbox est utilisée pour identifier l'objet cible dans l'image et est généralement représentée avec la catégorie de la cible. Le modèle prédira la catégorie et la position de la cible en fonction de l'image d'entrée et de la bbox, et affichera les résultats de détection correspondants.
(2) Boîte d'ancrage AnchorBox
Anchor Box (Anchor Box), également connue sous le nom de Prior Box (Prior Box), est une technique utilisée dans la détection de cibles pour générer des boîtes candidates. Les boîtes d'ancrage sont un ensemble de boîtes prédéfinies, chacune avec une taille et un rapport hauteur/largeur différents, qui sont utilisées pour essayer de faire correspondre différents objets dans l'image d'entrée. Des boîtes d'ancrage sont généralement générées à chaque emplacement de l'image d'entrée pour tenter de capturer des objets de différentes échelles et rapports d'aspect.
Au cours du processus de formation à la détection d'objets, le modèle est entraîné en fonction des boîtes d'ancrage prédéfinies ainsi que de l'emplacement et de la taille de l'objet réel pour apprendre à prédire la catégorie et l'emplacement de l'objet. Lors de l'inférence, le modèle détermine l'emplacement et la taille de l'objet en fonction des résultats de prédiction ainsi que des emplacements et des tailles des boîtes d'ancrage.
(3) Ratio d’intersection et d’union IOU
Intersection over Union (IoU) est un indicateur utilisé pour évaluer les performances des algorithmes de détection d'objets. Dans la détection d'objets, l'IoU est souvent utilisée pour mesurer dans quelle mesure la boîte englobante (bbox) prédite par le modèle chevauche la boîte englobante réelle de l'objet.
La formule de calcul de l'IoU est la suivante : IoU=zone d'intersection/zone d'union .
Parmi eux, la zone d'intersection fait référence à la zone de chevauchement entre la bbox prédite par le modèle et la bbox cible réelle, et la zone d'union fait référence à la zone des deux bbox plus leur zone de chevauchement.
Habituellement, le seuil IoU est défini en fonction de tâches et d'exigences spécifiques. Par exemple, dans la détection de cible, le seuil IoU est généralement défini sur 0,5 ou 0,7 pour juger si le modèle détecte avec succès la cible. En plus d'évaluer les performances du modèle, l'IoU peut également être utilisée pour l'optimisation et l'ajustement des bbox dans certains algorithmes de détection de cibles. Par exemple, l'algorithme de suppression non maximale (NMS) est basé sur l'IoU.
(4) NMS de suppression non maximale
S'il existe plusieurs cases de prédiction relativement proches, seule la case de prédiction ayant le score le plus élevé est sélectionnée et les cases de prédiction restantes sont ignorées.