Tiefere und breitere siamesische Netzwerke für visuelle Echtzeitverfolgung (SiamDW)

Tiefere und breitere siamesische Netzwerke für visuelle Echtzeitverfolgung (SiamDW, CVPR2019)

Durch eine große Anzahl von Experimenten stellte das Papier fest, dass es bei der Verfolgung der siamesischen Reihe mehrere Faktoren gibt, die einen größeren Einfluss auf die Netzwerkleistung haben, nämlich: die Größe des Empfangsfeldes, die Netzwerkschrittgröße, das Vorhandensein oder Fehlen der Auffüllung (Padding) und die Ausgabe der letzten Ebene Die Feature-Map-Größe von .

Der Autor fasst mehrere Richtlinien zusammen, die befolgt werden sollten, wenn das siamesische Netzwerk zur Verfolgung verwendet wird. Der Autor entwirft das CIR-Modul gemäß seinen eigenen Richtlinien, um das Netzwerk zu vertiefen, und wendet sie dann auf SiamFC und SiamRPN an, ausgedrückt als SiamFC+ und SiamRPN+. und hat die Wirkung von SOTA erhalten.

Die direkte Verwendung vorhandener leistungsstarker Netzwerkarchitekturen (wie ResNet, Inception usw.) zum Ersetzen des AlexNet-Backbones im siamesischen Netzwerk führt nicht zu einer Leistungsverbesserung und führt sogar zu einem starken Leistungsabfall, wenn die Netzwerktiefe oder -breite zunimmt. Der Autor geht davon aus, dass die Hauptgründe folgende sind:

  • Der Autor glaubt, dass, nachdem das Neuronenrezeptionsfeld größer wird, obwohl der Kontext des Merkmals größer wird, die Unterscheidung und Positionierungsgenauigkeit des extrahierten Merkmals verringert wird, dh die lokalen Informationen und die Unterscheidungsinformationen des Ziels selbst werden verringert. und das Empfangsfeld ist zu groß. Feature Die Überlappung benachbarter Pixel der Karte ist zu groß, das heißt, die Merkmalsredundanz ist groß. Wenn das Empfangsfeld klein ist, können keine ausreichenden Kontextinformationen und die Ebene erhalten werden Feature-Abstraktion reicht nicht aus. Daher wies der Autor darauf hin, dass die Größe des Empfangsfeldes mit der Größe des Beispielbildes zusammenhängt, vorzugsweise 60–80 % des Beispielbildes.
  • Die Autoren argumentieren, dass die Auffüllung neuronaler Netze zu einer Positionsverzerrung beim Lernen führt.

Fügen Sie hier eine Bildbeschreibung ein

Aus der obigen Tabelle ist ersichtlich:

  • Schrittweite (STR):
    Wenn die Netzwerkschrittweite (STR) von 4 oder 8 auf 16 steigt, sinkt die Netzwerkleistung erheblich (⑩③⑨ für AlexNet und VGG, ②⑧⑨ für Incep und ResNet). Dies zeigt, dass Siamese Tracker Merkmale mittlerer Ebene (Schritt 4 oder 8) bevorzugt, die bei der Objektlokalisierung genauer sind als Merkmale hoher Ebene (Schritt ≥ 16).
  • Empfangsfeld (RF):
    Für die größte Skala des Empfangsfelds (RF) ist der optimale Skalenbereich klein. Konkret liegt der Bereich für AlexNet zwischen 87-8 (Alex⑦) und 87+16 Pixel (Alex③); für Incep-22 liegt der Bereich zwischen 91–16 (Incep⑦) und 91+8 (Incep③) Pixel. VGG-10 und ResNet-17 weisen ebenfalls ähnliche Phänomene auf. In diesem Fall beträgt die optimale Empfangsfeldgröße etwa 60 % bis 80 % der Z-Größe des Eingabebilds (91 gegenüber 127).
    In dieser Studie ist dieses Verhältnis robust gegenüber verschiedenen Netzwerken und unempfindlich gegenüber deren Struktur, was zeigt, dass die Größe von RF für die Einbettung von Merkmalen in das siamesische Framework von entscheidender Bedeutung ist. Der Hauptgrund dafür ist, dass das Empfangsfeld RF den Bildbereich bestimmt, der zur Berechnung von Merkmalen verwendet wird.
    Das große Empfangsfeld deckt einen großen Teil des Bildhintergrunds ab, was dazu führt, dass die extrahierten Merkmale unempfindlich gegenüber der räumlichen Position von Objekten sind. Im Gegenteil kann es sein, dass ein kleines rezeptives Feld die Strukturinformationen von Objekten nicht erfasst und daher weniger differenzierend für die Zuordnung ist. Daher ermöglicht nur RF innerhalb eines bestimmten Größenbereichs die Merkmalsextraktion zur Charakterisierung von Objekten, und seine ideale Größe hängt eng mit der Größe des Beispielbilds zusammen.
  • Ausgabe-Feature-Größe (OFS):
    Bei der Ausgabe-Feature-Größe (OFS) kann beobachtet werden, dass eine kleine Größe (OFS ≤ 3) nicht gut für die Tracking-Genauigkeit ist. Dies ist auf die Tatsache zurückzuführen, dass kleine Feature-Maps keine ausreichenden räumlichen Strukturbeschreibungen von Zielobjekten enthalten und daher bei der Berechnung der Bildähnlichkeit nicht robust genug sind.
  • Netzwerkauffüllung (PAD):
    Von AlexNet und VGG⑤⑥, Incep und ResNets ④⑤ beobachten wir, dass Netzwerkauffüllung einen großen negativen Einfluss auf die endgültige Leistung hat. Das siamesische Netzwerk stellt Paare von Beispielen und Suchbildern als Trainingsdaten bereit und lernt eine Einbettungsfunktion für den Abgleich. Wenn das Netzwerk eine Auffülloperation umfasst, werden die eingebetteten Merkmale des Beispielbilds aus dem ursprünglichen Beispielbild plus herkömmlichen (Null-)Auffüllbereichen extrahiert. Der Unterschied besteht darin, dass für Features, die nach Bildern gesucht werden, einige Features nur aus dem Bildinhalt selbst extrahiert werden, während einige Features aus dem Bildinhalt plus zusätzlichen (mit Nullen gefüllten) Regionen, wie Features in der Nähe von Grenzen, extrahiert werden. Daher besteht eine Inkonsistenz zwischen Objekteinbettungen, die an verschiedenen Stellen im Suchbild auftreten, was zu einem Rückgang des Übereinstimmungsähnlichkeitsvergleichs führt.

Basierend auf der obigen Analyse werden vier Grundprinzipien zusammengefasst, um die negativen Auswirkungen struktureller Faktoren auf die Netzwerkarchitektur abzumildern:

  1. Siamese Tracker bevorzugt relativ kleine Netzwerkschritte
  2. Das Empfangsfeld des Ausgabemerkmals sollte entsprechend seinem Verhältnis zur Größe des Beispielbildes eingestellt werden
  3. Beim Entwurf der Netzwerkarchitektur sollten die Netzwerkschrittweite, das Empfangsfeld und die Größe der Ausgabemerkmale als Ganzes berücksichtigt werden.
  4. Für ein vollständig faltendes siamesisches Netzwerk ist es entscheidend, mit der Wahrnehmungsinkonsistenz zwischen zwei Netzwerkströmen umzugehen

Neues Modul Cropping-Inside Residual (CIR) Units:

  • CIR-Einheit: Verwenden Sie einen Zuschneidevorgang, um die Resteinheit zu verbessern, dh fügen Sie einen Zuschneidevorgang hinzu, nachdem das Hinzufügen von Features abgeschlossen ist. Der Zuschneideoperator entfernt Features, die von Zero-Padding-Signalen betroffen sind. Da die Füllgröße der Engpassschicht 1 beträgt, werden nur die meisten Kantenmerkmale entfernt. Durch diesen einfachen Vorgang werden die von der Polsterung betroffenen Merkmale in der Resteinheit weitgehend entfernt.
  • Downsampling-CIR-Einheit (CIR-D): Die Downsampling-Residueneinheit ist ebenfalls ein wichtiger Baustein im Netzwerkdesign. Es wird verwendet, um die Raumgröße der Feature-Map zu reduzieren und gleichzeitig die Feature-Kanäle zu verdoppeln. Da in diesem Modul auch Padding enthalten ist, kommt auch die Crop-Operation zum Einsatz. Der Autor legt die Schrittgröße der Faltung von 2 auf 1 fest. Der Kernpunkt dieser Änderungen besteht darin, sicherzustellen, dass nur durch Auffüllen verursachte Funktionen entfernt werden, während die Struktur der internen Module unverändert bleibt.
  • CIR-Inception- und CIR-NeXt-Einheiten: Der Autor verwendet diese Struktur auch zum Aufbau einer Struktur mit mehreren Zweigen, um sicherzustellen, dass ein breites Netzwerk aufgebaut werden kann.

Zusammenfassung: Dieser Artikel reproduziert den Artikel von Siamese Tracking und stellt fest, dass der Artikel nur flachere Netzwerke wie AlexNet als Rückgrat verwendet. Bei anderen Aufgaben wie Erkennung und Klassifizierung kann festgestellt werden, dass ResNet und andere Funktionen weitaus stärker sind als AlexNet. Daher experimentierte der Autor mit tieferen und breiteren Backbones wie ResNet und Inception, in der Hoffnung, den Effekt zu verbessern. Es trat jedoch ein neues Problem auf: Der Effekt nahm nicht zu, sondern ab. Der Autor entwarf die Kontrollvariablenmethode, um Experimente durchzuführen und einige Faktoren zu analysieren, die zum Rückgang des Effekts führten. Es gibt also folgende Probleme und Lösungen.

Supongo que te gusta

Origin blog.csdn.net/weixin_48158964/article/details/131554168
Recomendado
Clasificación