I. Einleitung

Anders als bei der herkömmlichen zweistufigen Pipeline schlägt das Papier vor, nach einer Erkennungsphase eine Auswahl auf Regionsebene durchzuführen, um die Verarbeitung einer großen Anzahl von Kandidatenregionen mit geringer Qualität zu vermeiden. Darüber hinaus wird ein neues Modul erstellt, um die Beziehung zwischen dem Zielrahmen und dem Referenzrahmen zu bewerten und die Aggregation zu steuern.

Die Autoren führen umfangreiche Experimente durch, um die Wirksamkeit der vorgeschlagenen Methode zu überprüfen und zeigen, dass sie andere hochmoderne VID-Methoden in Bezug auf Wirksamkeit und Effizienz übertrifft. Im ImageNet VID-Datensatz erreicht eine einzelne 2080Ti-GPU 87,55 % AP50 über 30 Bilder pro Sekunde.

Originaltext des Papiers:
Originaltext

Code:
Quellcode

2. Innovatives Denken

Die regionalbasierte CNN-Familie (R-CNN) ist ein Vorläufer zweistufiger Objektdetektoren mit mehreren Folgefunktionen. Aufgrund der Merkmale auf Regionsebene können diese Standbilddetektoren problemlos auf komplexere Aufgaben wie Segmentierung und Video übertragen werden Objekterkennung. Aufgrund der zweistufigen Natur ist dann die Effizienz der Engpass für praktische Anwendungen, während bei einstufigen Objektdetektoren Lokalisierung und Klassifizierung direkt durch die dichte Vorhersagevereinigung von Merkmalskarten erzeugt werden.

Die Videoobjekterkennung kann als erweiterte Version der Standbildobjekterkennung betrachtet werden. Videosequenzen können verarbeitet werden, indem sie Bild für Bild in einen Standbild-Objektdetektor eingespeist werden. Auf diese Weise werden jedoch die zeitlichen Informationen über die Frames hinweg verschwendet, was der Schlüssel zur Beseitigung/Reduzierung der in einem einzelnen Bild vorhandenen Unschärfe sein kann.

Wie in Abbildung 1 dargestellt, treten in Videobildern häufig Beeinträchtigungen wie Bewegungsunschärfe, Kameradefokussierung und Verdeckungen auf, was die Erkennung erheblich erschwert. Beispielsweise ist es für Menschen schwierig oder sogar unmöglich, anhand des letzten Bildes in Abbildung 1 zu erkennen, wo und welche Objekte sich befinden. Andererseits kann eine Videosequenz umfangreichere Informationen liefern als ein einzelnes Standbild. Das heißt, es wird vereinbart, dass andere Frames in der Sequenz die Vorhersage eines bestimmten Frames unterstützen können.
Fügen Sie hier eine Bildbeschreibung ein
Abbildung 1: Leidet unter verschiedenen Beeinträchtigungen, wie z. B. Bewegungsunschärfe und Okklusion, wodurch Basis-YOLOX diese Aufgabe nicht ausführen kann

Es gibt zwei Haupttypen der Frame-Aggregation: Box-Level und Feature-Level. Diese beiden technischen Wege können die Erkennungsgenauigkeit aus verschiedenen Blickwinkeln verbessern. Was Box-Level-Methoden betrifft, verketten sie die Vorhersagen stationärer Objektdetektoren, indem sie Begrenzungsrahmen verketten, um Röhrchen zu bilden, und verfeinern dann die Ergebnisse im selben Röhrchen. Der Box-Level-Ansatz kann als Nachbearbeitung angesehen werden, die flexibel auf einstufige und zweistufige Detektoren angewendet werden kann.

Bei Schemata auf Merkmalsebene hingegen werden die Merkmale von Schlüsselbildern verbessert, indem ähnliche Merkmale in anderen Bildern (auch Referenzbilder genannt) gefunden und aggregiert werden. Der zweistufige Ansatz wird explizit durch eine Backbone-Feature-Map dargestellt, die von einem Region Proposal Network (RPN) extrahiert wird. Dank dieser Eigenschaft können zweistufige Detektoren problemlos auf Videoobjekterkennungsprobleme migriert werden. Daher sind die meisten Videoobjektdetektoren auf zweistufigen Detektoren aufgebaut.

Diese zweistufigen Videoobjektdetektoren werden jedoch aufgrund der Einführung von Beziehungen zwischen Suchschemata noch weiter verlangsamt, wodurch es schwierig wird, den Anforderungen von Echtzeitszenarien gerecht zu werden. Im Gegensatz zur zweistufigen Basis wird eine implizite Darstellung durch die Feature-Map-Elemente des einstufigen Detektors vorgeschlagen. Obwohl es keine explizite Darstellung des Objekts gibt, können diese Elemente der Feature-Map dennoch von der Aggregation zeitlicher Informationen für die VID-Aufgabe profitieren.

Aufgrund dieser Überlegungen stellt sich natürlich die Frage, ob ein solches Design auf Regionsebene für einstufige Detektoren angepasst werden kann, die nur Merkmale auf Pixelebene enthalten, um eine praktische (genaue und schnelle) Videoobjekterkennung zu konstruieren.

Dieses Papier beantwortet die oben genannten Fragen, indem es eine einfache, aber effektive Strategie zur Aggregation der von einstufigen Detektoren in dieser Arbeit generierten Merkmale entwickelt.

3. Der Hauptbeitrag dieses Papiers

Es wird ein Modul zur Messung der Merkmalsähnlichkeit vorgeschlagen, um eine Affinitätsmatrix zu erstellen, die dann zur Steuerung der Aggregation verwendet wird.
Um die Einschränkung der Kosinusähnlichkeit weiter zu mildern, wird der durchschnittliche Pooling-Operator für die Referenzmerkmale angepasst.
YOLOV kann 85,5 % AP50 im ImageNet VID-Datensatz mit einer Geschwindigkeit von über 40 FPS auf einer einzelnen 2080Ti-GPU erreichen. Durch die weitere Einführung der Nachbearbeitung erreicht die Genauigkeit 87,5 % AP50 bei mehr als 30 fps.

4. Methode

Eine Methode, die Videomerkmale (verschiedene Verschlechterungen und umfangreiche zeitliche Informationen) berücksichtigt, anstatt Frames einzeln zu verarbeiten, um Unterstützungsinformationen für Zielframes (Keyframes) aus anderen Frames zu finden, spielt eine Schlüsselrolle bei der Verbesserung der Videoerkennungsgenauigkeit. Die meisten existierenden Methoden basieren auf zweistufigen Techniken.

Wie bereits erwähnt, liegt ihr Hauptnachteil in der relativ langsamen Inferenzgeschwindigkeit im Vergleich zur einstufigen Basis. **Um diese Einschränkung zu mildern, haben die Autoren die Regions-/Merkmalsauswahl nach dem Vorhersagekopf eines einstufigen Detektors platziert. Das Framework ist in Abbildung 3 dargestellt.

Fügen Sie hier eine Bildbeschreibung ein
Abbildung 3: Designrahmen dieses Dokuments. Basierend auf dem YOLOX-Detektor heißt das entsprechende Modell YOLOV. Aus einem Video werden zufällig einige Bilder ausgewählt und in einen Basisdetektor eingespeist, um Merkmale zu extrahieren.

Traditionelle zweistufige Pipeline: Wählen Sie zunächst eine große Anzahl von Kandidatenregionen als Vorschläge aus und bestimmen Sie, ob jeder Vorschlag ein Objekt ist und zu welcher Kategorie er gehört. Rechenengpässe entstehen hauptsächlich durch die Verarbeitung einer großen Anzahl von Regionskandidaten mit geringem Vertrauen.

Wie in Abbildung 3 dargestellt, umfasst die Pipeline auch zwei Stufen. Der Unterschied besteht darin, dass die erste Stufe die Vorhersage ist (Verwerfen einer großen Anzahl von Regionen mit geringer Konfidenz), während die zweite Stufe als Verfeinerung auf Regionsebene betrachtet werden kann (Verwendung anderer Frames durch Aggregation).

Dieser Überlegung folgend kann unser Design gleichzeitig von der Effizienz einstufiger Detektoren und der Genauigkeit profitieren, die sich aus der zeitlichen Aggregation ergibt. Die vorgeschlagene Strategie kann auf viele grundlegende Detektoren wie YOLOX, FCOS und Pyoloe verallgemeinert werden.

FSM: Feature-Selection-Modul
Da die meisten Vorhersagen ein geringes Vertrauen haben, ist der Erkennungskopf eines einstufigen Detektors eine natürliche und vernünftige Wahl für die Auswahl (hochwertiger) Kandidaten aus Feature-Maps. Nach dem RPN-Prozess werden zunächst die Top-K-Vorhersagen (z. B. 750) basierend auf ihren Konfidenzwerten ausgewählt. Dann wählt die nicht maximale Unterdrückung (NMS) eine feste Anzahl von Vorhersagen a (z. B. a = 30) aus, um die Redundanz zu reduzieren. Um Merkmale zur Videoobjektklassifizierung zu erhalten, sollte die Genauigkeit des Basisdetektors entsprechend gewährleistet sein.

In der Praxis stellten die Autoren fest, dass die direkte Aggregation ausgewählter Merkmale aus dem Klassifizierungszweig und die Rückübertragung des Klassifizierungsverlusts für die aggregierten Merkmale zu einem instabilen Training führen würde.

Um die oben genannten Probleme zu lösen, fügen die Autoren zwei 3×3-Faltungsschichten (Conv) als neuen Zweig, den sogenannten Videoobjektklassifizierungszweig, in den Modellhals ein, der Merkmale für die Aggregation generiert. Anschließend werden die positionsbezogenen Merkmale aus den Videoklassifizierungs- und Regressionszweigen in das Merkmalsaggregationsmodul eingespeist.

FAM: Feature Aggregation Module
Wenn Keyframes bestimmte Verschlechterungen aufweisen, leiden die ausgewählten Schemata, die diesen ähnlichen Features entsprechen, wahrscheinlich unter demselben Problem. Dieses Phänomen wird als Homogenitätsproblem bezeichnet.

Um dieses Problem zu lösen, wird die Vorhersagekonfidenz Pi aus der Basis weiter berücksichtigt, und jede Spalte von Pi enthält nur zwei Bewertungen, nämlich die Klassifizierungsbewertung und die IoU-Bewertung aus den Klassifizierungs- bzw. Regressionsköpfen. Anschließend werden Abfrage-, Schlüssel- und Wertmatrizen erstellt und in die Multi-Head-Aufmerksamkeit eingespeist. Durch das skalierte Skalarprodukt der Aufmerksamkeit werden die entsprechenden Ac und Ar erhalten, und das Sammeln aller Brüche in P ergibt eine Matrix [P1,P2,…,Pf] der Größe 2×FA.

Um diese Bewertungen an Aufmerksamkeitsgewichte anzupassen, erstellen die Autoren zwei Matrizen, Sr und Sc. Rufen Sie dann die Selbstaufmerksamkeitsergebnisse für die Klassifizierungs- und Regressionszweige ab:

Fügen Sie hier eine Bildbeschreibung ein

Verketten Sie Vc mit der Ausgabe von Gleichung (3), um die ursprüngliche Darstellung besser beizubehalten, indem Sie:

Fügen Sie hier eine Bildbeschreibung ein

Darüber hinaus werden in Anbetracht der Natur von Softmax häufig Merkmale mit geringer Gewichtung ignoriert, was die Vielfalt der Referenzmerkmale einschränkt, die anschließend verwendet werden können.

Um solche Risiken zu vermeiden, führen die Autoren ein durchschnittliches Pooling (AP) basierend auf Referenzmerkmalen ein. Alle Referenzen mit einem Ähnlichkeitswert über einem Schwellenwert τ werden ausgewählt und auf diese Referenzen wird ein durchschnittliches Pooling angewendet. Auf diese Weise können mehr Informationen aus verwandten Funktionen gepflegt werden. Die durchschnittlichen gepoolten Merkmale und Schlüsselmerkmale werden dann zur endgültigen Klassifizierung in eine lineare Projektionsschicht eingespeist. Der Vorgang ist in Abbildung 4 dargestellt.
Fügen Sie hier eine Bildbeschreibung ein

5. Experimentieren

Um die Wirkung unterschiedlicher Abtaststrategien zu beobachten, wird die Anzahl der Referenzrahmen sowohl im globalen als auch im lokalen Modus variiert. Die numerischen Ergebnisse sind in Tabelle 1 aufgeführt.
Fügen Sie hier eine Bildbeschreibung ein
Tabelle 1: Auswirkung der Anzahl globaler fg- und lokaler fl-Referenzrahmen.

Passen Sie die Anzahl der sichersten Vorschläge, die pro Frame a im FSM beibehalten werden, von 10 auf 100 an, um die Auswirkungen auf die Leistung zu sehen. Wie in Tabelle 2 gezeigt, verbessert sich die Genauigkeit mit zunehmendem a weiter und bleibt tendenziell stabil, bis sie 75 erreicht.

Fügen Sie hier eine Bildbeschreibung ein
Tabelle 2: Die Auswirkung der Anzahl der Frames a in FSM.

Um die Wirksamkeit der Assoziationsmittel (AM) und des Referenz-Feature-Average-Poolings (AP) zu überprüfen, wird die Leistung mit und ohne diese Module bewertet. Die Ergebnisse in Tabelle 4 zeigen, dass diese Designs alle dazu beitragen können, dass die Feature-Aggregation bessere semantische Darstellungen von einstufigen Detektoren erfasst. Im Vergleich zu YOLOX-S (69,5 % AP50) ist die Genauigkeit von YOLOV-S mit nur AM um 7,4 % verbessert.
Fügen Sie hier eine Bildbeschreibung ein
Tabelle 4: Verfügbarkeit von Affinitätsmodalität (AM) und Referenz-Feature-Pool (AP).

Fügen Sie hier eine Bildbeschreibung ein
Tabelle 5: Wirksamkeit unserer Strategie im Vergleich zu Stützpunkten. Tabelle 5 zeigt den detaillierten Vergleich zwischen Yolox und Yolov.

Fügen Sie hier eine Bildbeschreibung ein
Abbildung 5: Visueller Vergleich zwischen Referenzszenarien, die für ein bestimmtes Schlüsselszenario mit drei verschiedenen Methoden ausgewählt wurden.

Fügen Sie hier eine Bildbeschreibung ein
Tabelle 6: Genauigkeit der Objekterkennung bei unterschiedlichen Geschwindigkeiten. Wie in Tabelle 7 dargestellt, wird die Wirksamkeit des Modells für jede Kategorie eindeutig überprüft. Diese Verbesserung nimmt mit zunehmender Bewegungsgeschwindigkeit zu (bringt einen größeren Vorteil).

Fügen Sie hier eine Bildbeschreibung ein
Tabelle 7: Zeitaufwand im Offline-Modus mit Batch-Inferenz. Die Nachbearbeitung wird auf einer i7-8700k-CPU getestet.

6. Fazit

Der Artikel schlägt einen praktischen Videoobjektdetektor vor, der sowohl die Erkennungsgenauigkeit als auch die Inferenzeffizienz berücksichtigt. Um die Erkennungsgenauigkeit zu verbessern, wurde ein Feature-Aggregationsmodul entwickelt, um zeitliche Informationen effizient zu aggregieren.

Um Rechenressourcen zu sparen, platzieren wir im Gegensatz zu bestehenden zweistufigen Detektoren die Regionsauswahl nach der (groben) Vorhersage. Diese kleine Änderung führte zu einer dramatischen Steigerung der Detektoreffizienz.

Bei dem Inhalt dieses Artikels handelt es sich um nachgedruckte Inhalte. Bei Verstößen wenden Sie sich bitte an uns, um ihn zu löschen.

Zielerkennung, YOLOV: Wir machen Fotoobjektdetektoren großartig für die Videoobjekterkennung. Leistung von Bildobjektdetektoren bei der Videoobjekterkennung