Apropos Unterschied zwischen verschiedenen Versionen von YOLO (V1-V3)

  Es gibt zwei klassische Erkennungsmethoden für Deep Learning: zweistufig und einstufig. Mask-Rcnn gehört zu zweistufig und YOLO (You Only Look Once) gehört zu einstufig. Der Hauptunterschied zwischen den beiden besteht darin, dass zweistufig einen weiteren Vorauswahlschritt hat, sodass die Genauigkeit von zweistufig höher und die Geschwindigkeit viel langsamer ist als von einstufig.

  YOLO-V1

  

 

  Die Kernidee von YOLOV1 besteht, vereinfacht gesagt, darin, an jedem Überwachungspunkt zwei horizontale und vertikale Rahmen zu generieren und dann den Konfidenzwert, der über dem Schwellenwert liegt, als Objekt und die anderen als Hintergrund zu verwenden. Wählen Sie dann in den beiden Feldern dasjenige mit dem größeren Iou aus, berechnen Sie x, y, w, h und zeichnen Sie das Vorhersagefeld.

  Iou (Schnittpunkt über der Vereinigung) ist der Schnittpunkt des wahren Werts und des vorhergesagten Werts im Vergleich zur Vereinigung des wahren Werts und des vorhergesagten Werts. Bei der Objekterkennung gilt: Je größer der Iou-Wert, desto besser, wie in der folgenden Abbildung dargestellt:

  Die Bedeutung von 7 × 7 × 30 wird nach der Umformung in der Netzwerkstruktur erhalten: 7 × 7 ist die endgültige Gittergröße, und 30 wird in B1 (x, y, w, h, c, insgesamt 5) + B2 (x, y, w, h, c, insgesamt 5) + 20 unterteilt.

  YOLOV1 hat viele neue Ideen in den Bereich der Objekterkennung gebracht, aber auch seine Mängel liegen auf der Hand: Jede Zelle kann nur eine Kategorie vorhersagen und das Problem überlappender Objekte nicht lösen. Darüber hinaus ist YOLOV1 nicht ideal für die Erkennung kleiner Objekte. Hier ist also das stärkere YOLOV2.

  YOLO-V2

  Im Vergleich zu V1 verwirft YOLOV2 Dropout (die Funktion von Dropout besteht darin, eine Überanpassung zu verhindern) und verwendet nach der Faltung die Batch-Normalisierung, um jede Schicht des Netzwerks zu normalisieren, was die Konvergenz relativ einfacher macht.

  Die für das V1-Training verwendete Auflösung beträgt 224×224 und für Tests 448×448. V2 führt während des Trainings zusätzlich zehn 448×448-Feinabstimmungen durch.

  Die tatsächliche Eingabe von V2 in der Netzwerkstruktur beträgt 416 × 416, aber die vollständig verbundene (FC) Schicht ist nicht im Netzwerk festgelegt, sondern es wird fünf Downsampling verwendet, um die Größe der Ausgabe zu reduzieren.

  V2 führt Ankerboxen ein, um vorhersehbarere Boxen zu erstellen. Es ist zu beachten, dass der Vorhersagerahmen in V2 durch eine relative Position dargestellt wird und seine Berechnungsformel wie folgt lautet

 

   Darunter ist σ die Sigmoidfunktion. Im Internet gibt es viele wissenschaftliche Popularisierungen und Analysen zu dieser Funktion, daher werde ich hier nicht auf Details eingehen. In der Abbildung oben ist der Ursprung (Cx, Cy) und der Bbox-Ursprung ist (bx, by), was das Ergebnis des relativen Versatzes des Ursprungs ist.

  YOLO-V3

  Machen Sie ein Bild, bevor Sie über V3 sprechen

   Die V3-Kurve hier außerhalb der Koordinatenachse zu platzieren, sollte die Arbeit des Autors sein, was wahrscheinlich bedeutet: „Ich bin viel besser als du!“

  Um die Genauigkeit der Erkennung kleiner Objekte zu erhöhen, verwendet V3 drei Skalen mit jeweils drei Spezifikationen und insgesamt neun Arten von vorherigen Frames.

   Eine der Kernideen von V3 ist die Vorhersage nach der Fusion verschiedener Feature-Maps, beispielsweise durch Upsampling und anschließende Fusion. V3 verwendet auch die Idee von Resnet und stapelt mehr Schichten zur Merkmalsextraktion. Die Netzwerkstruktur ist in der folgenden Abbildung dargestellt

   Es ist ersichtlich, dass es in der Netzwerkstruktur von V3 kein Pooling und keine vollständige Verbindungsschicht gibt, das Downsampling durch Schritt 2 realisiert wird und es drei Größen von Feature-Maps und 9 Arten von vorherigen Frames gibt, die sich auf der 13*13-Feature-Map befinden: (116x90), (156x198), (373x326) drei Größen; auf der 26*26-Feature-Map: (30x61), (62x45), (59x1). 19) drei Größen; 52 * Auf der 52-Feature-Map: (10x13), (16x30), (33x23) drei Größen.

 

 

 

 

 

 

 

Je suppose que tu aimes

Origine blog.csdn.net/weixin_48778017/article/details/128508694
conseillé
Classement