Übersicht über die YOLO-Serie (yolov1 bis yolov7)

Übersicht über die YOLO-Serie (yolov1 bis yolov7)

Referenz:

  1. Intelligente Zielerkennung 53 – Pytorch baut YoloX-Zielerkennungsplattform auf
  2. YoloV7

Yolos Entwicklungsgeschichte

Fügen Sie hier eine Bildbeschreibung ein
Werfen wir zunächst einen Blick auf die Entwicklungsgeschichte der Yolo-Serie. Yolo v1 und yolox sind ankerfreie Methoden, yolov2, yolov3 und yolov7 sind ankerbasierte Methoden. Lassen Sie uns zunächst einen Blick darauf werfen, was jede Version von Yolo getan hat

Yolo v1 wird 416 ∗ 416 416*416 sein4 1 6Das Bild von 4 1 6 ist in 7 ∗ 7 7*7unterteilt77 Gitter, jedes Gitter gibt standardmäßig zwei Objekte zurück, das heißt, es sagt schließlich einen Vektor mit einer Länge von S S(B*5+C) voraus, wobeis = 7, b = 2 s=7,b=2S=7 ,B=2 , c ist die Anzahl der Klassenkategorien.

Hier stellt sich also die Frage: Warum ist Yolox auch eine ankerfreie Methode mit guter Leistung, Yolo v1 weist jedoch eine schwache Leistung auf? Der Hauptgrund dafür ist, dass Yolox Centernet ähnelt und durch die Vorhersage des Mittelpunkts die Vorhersage des Modells genauer ist. Für Yolox gibt es eine Featuremap, die die Wahrscheinlichkeit angibt, dass eine bestimmte Position der Mittelpunkt ist, und der Mittelpunkt kann die Eigenschaften eines Objekts mehr als die Länge und Breite darstellen.

Schauen wir uns yolov2 noch einmal an. Aufgrund des Aufstiegs von schnellerem RCNN zu diesem Zeitpunkt kann in der letzten Ebene der Featuremap in schnellerem RCNN jede Position 9 Anker zurückgeben, und der Anker spielt eine große Rolle als Vorwissen, daher wird er eingeführt yolov2, natürlich yolov2 Es werden auch einige Techniken zum Trainieren von Modellen vorgeschlagen, z. B. zuerst die Trainingsklassifizierung usw. Und aufgrund der Existenz des Ankers ist das kleine Zielproblem von Yolo bis zu einem gewissen Grad gelöst.

Nach yolov2 kam es zu yolov3. Zu dieser Zeit löste die Geburt von fpn das Problem kleiner Ziele weiter. Bei kleinen Zielen können die Merkmale nach mehrschichtigen Walzmaschinen verschwinden oder sehr klein sein. Betrachten Sie dann die flachen Merkmale. Die Der Bereich ist immer noch relativ groß. Wenn die flachen Merkmale und die tiefen Merkmale miteinander verknüpft werden können, gibt es sowohl Oberflächenmerkmale als auch semantische Merkmale, da durch das Hinzufügen von FPN zu yolov3 eine bessere Leistung erzielt wurde.

Es ist erwähnenswert, dass yolov4 und yolov5 nicht nur das Rückgrat verbessert haben, sondern auch Innovationen bei der Datenverbesserung hervorgebracht haben, beispielsweise durch die Einführung von Methoden wie Mosaik und Verwechslung. Unter Mosaik versteht man das Zusammenfügen von vier Bildern zu einem zur Zielerkennung. Der Vorteil dieser Methode besteht darin, dass umfangreiche Hintergrundinformationen für die Erkennung hilfreich sind, und bei der Verwechslung werden zwei Bilder zusammengefügt. Und für den Halsteil verwendete der Autor auch die Panet-Methode, nicht nur durch zweimaliges Upsampling von Cancat, sondern auch durch zweimaliges Downsampling. Auf diese Weise können die Merkmale besser miteinander verschmolzen werden.

Yolox und yolov7 werden später ausführlich vorgestellt.

yolox

Fügen Sie hier eine Bildbeschreibung ein
Erstens ähnelt das von Yolox im Backbone-Teil eingeführte Fokusnetzwerk der Pooling-Strategie, aber anstatt kleine Funktionen wie Maxpooling wegzuwerfen, nimmt es an jeder anderen Position einen Wert und stapelt ihn in den Kanal, weil wir das wissen Je höher die Anzahl der Kanäle, desto stärker ist die Darstellungsfähigkeit.
Fügen Sie hier eine Bildbeschreibung ein
Schauen wir uns noch einmal die Ersetzung von relu durch silu durch den Autor an. Der Vorteil von silu besteht darin, dass es global ableitbar ist und es keinen nicht ableitbaren 0-Punkt gibt.
Fügen Sie hier eine Bildbeschreibung ein
Darüber hinaus können wir uns im Backbone-Teil inspirieren lassen, wie wir die grundlegende Faltungsstruktur, die aus kleinen conv+bn+silu besteht, in verschiedene Arten von Reststrukturen konstruieren.
Fügen Sie hier eine Bildbeschreibung ein
Darüber hinaus glaubt der Autor, dass die Kategorien und Koordinaten in yolov3 im Kopfabschnitt in einem 1 ∗ 1 1 * 1 platziert sind11 wird durch Faltung erhalten und beeinflusst sich gegenseitig. Teilen Sie es also in zwei Zweige auf.

Schließlich ist SimOTA ein Algorithmus, der positive Proben dynamisch zuweist. Addieren Sie die zehn größten iou-Werte im Vorhersagerahmen, und der erhaltene ungefähre Wert ist die Anzahl der positiven Proben, die für das Training verwendet werden. Diese Methode wurde auch im späteren Yolo verwendet.

yolov7

Fügen Sie hier eine Bildbeschreibung ein
Im Sommer 22 schlug ein anderer großer Gott yolov7 vor. Es ist ersichtlich, dass der AP bei gleichen fps im Vergleich zu yolox um 5 Punkte verbessert werden kann. Schauen wir uns also an, welche Innovationen es gibt.
Fügen Sie hier eine Bildbeschreibung ein
Zunächst können wir im Backbone sehen, dass das verbesserte E-ELAN des Autors den ursprünglichen 4-fachen Kanal nur auf das 8-fache erhöht hat. Dies bestätigt also auch, was wir zuvor gesagt haben, dass der hohe Kanal über eine stärkere Fähigkeit zum Ausdruck von Merkmalen verfügt. E-ELAN verwendet jedoch nicht die Methode des Hinzufügens von Residuen, sondern die Methode des Stapelns. Es besteht kein Zweifel, dass der Rechenaufwand größer, aber die Ausdruckskraft stärker ist. Wenn Sie über Leichtbau nachdenken, können Sie einen Wechsel in Betracht ziehen die Methode der Summierung.
Fügen Sie hier eine Bildbeschreibung ein

Darüber hinaus verfügt das im Erkennungskopfteil verwendete Rep-Netzwerk beim Training über drei Zweige, nämlich 1 ∗ 1 1*111 Faltung,3 ∗ 3 3*333 Faltung und nur drei Zweige bn, aber bei der Vorhersage wird nur der Hauptzweig3 ∗ 3 3*333 Zweige, was eher einem Dropout ähnelt, wodurch einige Knoten deaktiviert werden und möglicherweise die gleiche Rolle wie ein Dropout spielen, wodurch eine Überanpassung verringert wird.

Supongo que te gusta

Origin blog.csdn.net/lanmengyiyu/article/details/127888093
Recomendado
Clasificación