ICCV 2023 | Sublimation von Licht und Schatten: FeatEnHancer Ein Plug-and-Play-Modul für beliebige Aufgaben bei schlechten Lichtverhältnissen, das die Genauigkeit erheblich steigert!

Führung

TL;DR : In diesem Artikel schlagen wir einen neuartigen Ansatz für erweiterte hierarchische MultiskalenfunktionenFeatEnHancer für Sehaufgaben bei schlechten Lichtverhältnissen vor. Die vorgeschlagene Lösung konzentriert sich auf die Verbesserung relevanter Funktionen, die bestehende Methoden zur Bildverbesserung bei schlechten Lichtverhältnissen übertrifft, indem sie eine starke semantische Darstellung bietet. Diese Methode verbessert nicht nur die Qualität einzelner Merkmale, sondern kombiniert auch effektiv Merkmale aus verschiedenen Maßstäben und sorgt so für eine bessere Leistung bei Aufgaben wie der Objekterkennung und -segmentierung. Das Papier bestätigt die Wirksamkeit seiner Methode durch Leistungsmetriken an mehreren Benchmark-Datensätzen und erzielt erhebliche Verbesserungen gegenüber SOTA-Methoden.

Das Extrahieren nützlicher visueller Hinweise bei schlechten Lichtverhältnissen ist für nachgelagerte Aufgaben bekanntermaßen eine Herausforderung. Bestehende Methoden verbessern entweder die Bildqualität, indem sie die visuelle Qualität mit der maschinellen Wahrnehmung korrelieren, oder verwenden Methoden, die ein Vortraining an synthetischen Datensätzen erfordern (z. B. überlagertes Rauschen, Regen, Schnee, Beleuchtung usw.).

In diesem Artikel wird ein FeatEnHancerModul mit dem Namen vorgeschlagen, das sich an den Multi-Head-Aufmerksamkeitsmechanismus anlehnt, um Multi-Scale-Merkmale hierarchisch zu kombinieren. Dieser Ansatz stellt sicher, dass das Netzwerk in der Lage ist, erweiterte Merkmale zu extrahieren, die repräsentativer und differenzierter sind. Konkret konzentriert sich die Methode auf die Verbesserung der Qualität von Merkmalen auf jeder Skala oder Ebene und kombiniert gleichzeitig Merkmale auf verschiedenen Maßstäben entsprechend der relativen Bedeutung der Aufgaben (dynamischer Mechanismus). Es ist erwähnenswert, dass die vorgeschlagene Methode Plug-and-Play ist und theoretisch auf jede Sehaufgabe bei schlechten Lichtverhältnissen anwendbar ist. Aus den in der obigen Abbildung visualisierten hierarchischen Darstellungsergebnissen ist ersichtlich, dass das Netzwerk tatsächlich aussagekräftige Darstellungen extrahieren kann .

Motivation

high-levelTrotz Fortschritten bei Sehaufgaben mit qualitativ hochwertigen Bildern nimmt die Leistung ab, wenn Methoden zur Bildverbesserung bei schlechten Lichtverhältnissen (LLIE) mit Sehaufgaben auf hohem Niveau kombiniert werden. Dies ist auf die Tatsache zurückzuführen, dass vorhandene LLIEMethoden zwar die Sehkraft des menschlichen Auges verbessern , jedoch möglicherweise nicht gut mit der maschinellen Bildverarbeitung übereinstimmen (Modus-Mismatch), da sie möglicherweise wichtige Merkmale von Objekten wie Kanten und Texturen beeinträchtigen .

Darüber hinaus ist bekannt, dass die Pixelverteilung in Bildern mit wenig Licht stark variiert, was zu schwerwiegenden Problemen bei der Fehlerkennung führen kann. Herkömmliche Verlustfunktionen, die von aktuellen LLIEMethoden übernommen werden, „unterscheiden“ nicht die Bedeutung jedes Pixels, was dem Erlernen detaillierter Informationen, die für Aufgaben auf hoher Ebene von entscheidender Bedeutung sind, nicht förderlich ist.

Inspiriert durch LLIEFortschritte bei visionsbasierten Netzwerken zielt dieses Papier darauf ab, diese Lücke durch die gemeinsame Optimierung der Funktionserweiterung und nachgelagerter Aufgabenziele zu schließen.

Methode

Die Gesamtarchitektur ist in der Abbildung dargestellt. Es ist nicht schwer zu erkennen, dass es sich um eine geschichtete Feature-Darstellung handelt, kombiniert mit einigen Multiskalen-Feature-Fusion-Mechanismen in der Mitte, und schließlich wird ein bei schwachem Licht verbessertes Bild an die nachgelagerte Aufgabe gesendet für die Anwendung. Tatsächlich wurde im vorherigen Artikel bereits viel über diesen Teil gesprochen, daher wollen wir ihn hier kurz erläutern. Erklären Sie zunächst den Gesamtprozess:

Zunächst führt FeatEnHance ein Downsampling des Eingabebilds bei schlechten Lichtverhältnissen auf verschiedenen Ebenen durch, um eine hierarchische Darstellung mit mehreren Maßstäben zu erstellen.

Zweitens werden diese Darstellungen einem Feature Enhancement Network (FEN) zugeführt, um die semantische Darstellung auf inneren Skalen anzureichern.

Die erweiterte Darstellung wird dann durch zwei Strategien verschmolzen:

  • Verwenden Sie SAFA (Scale-Aware Attention Feature Aggregation) für hochauflösende Features.
  • Verwenden Sie Skip-Verbindungen für Funktionen mit niedriger Auflösung.

Schließlich FENkönnen die Parameter von durch eine aufgabenabhängige Verlustfunktion optimiert werden, um sich auf die Verbesserung aufgabenbezogener Funktionen zu konzentrieren.

Feature Augmentation Network

Um Funktionen auf jeder Skala zu verbessern, benötigen wir ein Erweiterungsnetzwerk, das lernen kann, wichtige räumliche Informationen in nachgelagerten Aufgaben zu erweitern. Zu diesem Zweck bezieht sich der Autor auf Zero-DCE++die Anwendung in (TPAMI 2021) DCENetund erstellt ein vollständig faltendes Netzwerk zur Merkmalsextraktion mit mehreren Maßstäben FEN. Der Unterschied zu DCENet ist:

  1. FEN führt zunächst eine separate Faltungsschicht ein, um eine Feature-Map- FF zu generierenF , seine AuflösungH × WH × WH×W bleibt derselbe wie der Eingang, ändert sich jedoch von 3 Kanälen auf 32 Kanäle.
  2. Es werden sechs Faltungsschichten angewendet, denen jeweils ReLUeine Aktivierungsfunktion mit Symmetrie folgt skip connection.
  3. Die Ausgaben von FEN werden jeweils mit kombiniert stage, um Multiskalen-Feature-Darstellungen zu erhalten. Dieses Multiskalen-Lernen ermöglicht es dem Netzwerk, globale und lokale Informationen aus Features mit hoher und niedriger Auflösung zu verbessern.
  4. Um die semantische Beziehung zwischen benachbarten Pixeln zu bewahren, vermeidet FEN außerdem die Verwendung von Downsampling-Summen Batch Norm.
  5. Schließlich verwirft FEN die letzte Faltungsschicht in DCENet und übergibt die endgültige erweiterte Merkmalsdarstellung von jedem Maßstab an die Merkmalsfusion mit mehreren Maßstäben.

Natürlich ist das Feature-Enhancement-Netzwerk hier von der gesamten Architektur entkoppelt und kann theoretisch durch jedes Feature-Extraktionsnetzwerk ersetzt werden.

Multiskalige Feature-Fusion

Dieser Teil dient hauptsächlich der Ergänzung der detaillierten Funktionsweise von Schritt 3 im obigen FEN. wir wissen:

  • Merkmale mit niedriger Auflösung ( F o F_{o}Fo): Enthält Details und Kanten.
  • Hochauflösende Funktionen ( F q F_{q}Fq): erfasst abstrakte Informationen wie Form und Muster.

Zu diesem Zweck können wir die folgende Fusionsstrategie anwenden:

  • Scale-Aware Attentional Feature Aggregation (SAFA): Inspiriert durch den Multi-Head-Attention-Mechanismus ermöglicht es dem Netzwerk, gemeinsam Informationen aus verschiedenen Skalen zu lernen.
  • Verbindung überspringen (SC): Ensemble F o F_{o}FoDie Informationen auf niedriger Ebene und SAFAdie erweiterte Darstellung von erhalten die endgültige erweiterte hierarchische Darstellung.

Dabei handelt es sich um das SAFA-Modul. Sein Designkonzept besteht darin, wie man Multiskalenfunktionen effektiv mit hoher Recheneffizienz aggregieren kann.

Im Folgenden finden Sie eine kurze Beschreibung der Anwendungsstrategie in Kombination mit der obigen Abbildung:

  1. Hochauflösende Features werden vor Aufmerksamkeitsoperationen auf kleinere Auflösungen abgebildet.
  2. SAFA übernimmt die Zwischenfunktion FFF- Downsampling in QQumgewandeltQ , wirdF q F_{q}FqIn KK umrechnenK. _
  3. QQQ undKKK concat ist zu einer Menge hierarchischer Merkmale verkettetF q + k F_{q+k}Fq + kDieser Satz von Funktionen wird zur Berechnung der Aufmerksamkeitsgewichte in N Blöcke aufgeteilt (siehe Design des Multi-Head-Aufmerksamkeitsmechanismus).
  4. Verwenden Sie Standard QKV-Selbstaufmerksamkeitsoperationen, um die Gewichte zu berechnen und die erweiterte hierarchische Darstellung F h F_{h} zu berechnen.Fh

Es ist zu beachten, dass die Gewichte der Faltungsschichten vor der Berechnung der Aufmerksamkeitsgewichte nicht geteilt werden. Außerdem ist F h F_{h}Fhmit QQQ undKKK hat die gleiche Größe, enthält jedoch umfangreichere Darstellungen von hochauflösenden Features mit mehreren Maßstäben. Hier integrieren wir durch Überspringen der VerbindungsoperationF o F_{o}Found F h F_{h}FhEs wird eine endgültige erweiterte hierarchische Darstellung erhalten, die sowohl globale als auch lokale Merkmale abdeckt. Gleichzeitig verwendet der Upsampling-Vorgang hier eine einfache bilineare Interpolation, was natürlich definitiv schneller ist als die Verwendung einer transponierten Faltung.

Experiment

In diesem Artikel wurden Experimente unter vier verschiedenen visuellen Aufgaben durchgeführt. Im Folgenden sind die detaillierten Statistiken für jeden Aufgabendatensatz aufgeführt:

Dies umfasst die Zielerkennung bei schlechten Lichtverhältnissen, die Gesichtserkennung, die semantische Segmentierung und die visuelle Zielerkennung. Zunächst werden die Ergebnisse der quantitativen Analyse angegeben:

Es ist ersichtlich, dass die Methode in diesem Artikel bei verschiedenen Aufgaben deutlich zugenommen hat und sich die meisten von ihnen um einige Punkte verbessert haben. Schauen Sie sich dann die Ergebnisse der qualitativen Analyse an:

Schauen wir uns abschließend die Visualisierungsergebnisse in der Mitte an. Es ist deutlich zu erkennen, dass das verbesserte Bild eine bessere Darstellung erlernen kann:

Zusammenfassen

In diesem Artikel wird ein FeatEnHancerneuartiges Allzweck-Funktionserweiterungsmodul namens vorgeschlagen, das darauf abzielt, hierarchische Funktionen anzureichern, die für nachgelagerte Aufgaben beim Sehen bei schlechten Lichtverhältnissen von Vorteil sind. Die entwickelten Strategien zur skaleninternen Merkmalserweiterung und skalenbewussten Aufmerksamkeitsmerkmalsaggregation werden mit dem visuellen Backbone-Netzwerk kombiniert, um leistungsstarke semantische Darstellungen zu erzeugen. Darüber hinaus FeatEnHancerist weder ein Vortraining an synthetischen Datensätzen noch die Verwendung erweiterter Verlustfunktionen erforderlich. Diese architektonischen Innovationen machen FeatEnHanceres zu einem Plug-and-Play-Modul. Umfangreiche Experimente zu vier verschiedenen Downstream-Vision-Aufgaben, die Bilder und Videos umfassen, zeigen, dass die vorgeschlagene Methode stabile und signifikante Verbesserungen gegenüber Baselines, LLIE-Methoden und hochmodernen Methoden für bestimmte Aufgaben bringt.

schreibe am Ende

Kinderschuhe, die sich für visionäre Anwendungen interessieren, können gerne low-levelden QR-Code am unteren Bildschirmrand scannen oder direkt nach der WeChat-ID cv_huber suchen, um Freunde des Herausgebers hinzuzufügen, Hinweis: Schule/Unternehmen-Forschungsrichtung-Spitzname, und kommunizieren und lernen mit mehr Freunden!

Acho que você gosta

Origin blog.csdn.net/CVHub/article/details/132521328
Recomendado
Clasificación