Neuronales Netzwerk: Wissenspunkte der Schicht bündeln

1. Die Rolle des Poolings in CNN

Die Rolle der Pooling-Schicht besteht darin, Merkmale innerhalb des Empfangsfelds auszuwählen und die repräsentativsten Merkmale im Bereich zu extrahieren, wodurch die Anzahl der Ausgabemerkmale und damit die Menge der Modellparameter effektiv reduziert werden kann. Je nach Operationstyp wird es normalerweise in Max Pooling, Average Pooling und Sum Pooling unterteilt. Sie extrahieren jeweils die maximalen, durchschnittlichen und summierten Eigenwerte im Empfangsfeld als Ausgabe. Die am häufigsten verwendeten sind Max Pooling und Average Pooling.

2. Die Rolle des globalen Poolings

Das globale Pooling umfasst hauptsächlich das globale Durchschnittspooling und das globale Maximalpooling.

globales maximales Pooling

globales durchschnittliches Pooling

Als nächstes beschreibt Rocky anhand des globalen Durchschnittspoolings, wie es in Deep-Learning-Netzwerken funktioniert.

Wie gerade erwähnt, besteht das globale Durchschnittspooling darin, den Durchschnittswert der gesamten Feature-Map für jeden Kanal auf der Feature-Map der letzten Faltungsschicht zu berechnen. Wie nachfolgend dargestellt:

globales durchschnittliches Pooling

Im Allgemeinen werden mehrere vollständig verbundene Schichten am Ende des Netzwerks verbunden, aber die Feature-Map nach dem globalen Pooling entspricht einem Pixel, sodass die endgültige vollständig verbundene Schicht tatsächlich zu einer gewichteten Additionsoperation wird. Diese Struktur ist intuitiver als eine direkte Vollverbindung, die Anzahl der Parameter wird erheblich reduziert und die Generalisierungsleistung ist besser:

Die Rolle des globalen Poolings:

1. Informationsredundanz reduzieren :

  • Der Pooling-Layer hilft dabei, die primären Informationen in der Eingabe-Feature-Map zu extrahieren und gleichzeitig die sekundären Informationen zu unterdrücken. Durch diesen Vorgang kann sich das Modell stärker auf wichtige Merkmale konzentrieren und redundante oder irrelevante Merkmale reduzieren, was sich positiv auf die Trainings- und Generalisierungsfähigkeiten des Modells auswirkt.

2. Reduzierung der Merkmalsdimensionalität und Downsampling :

  • Durch den Pooling-Vorgang wird die Größe der Ausgabe-Feature-Map reduziert, wodurch die Effekte der Feature-Dimensionalitätsreduzierung und des Downsampling erzielt werden. Dies trägt dazu bei, den Rechenaufwand zu reduzieren und den Wahrnehmungsbereich von Bildmerkmalen in nachfolgenden Ebenen zu verbessern, sodass ein zusammengefasstes Pixel einem Bereich im vorherigen Bild entspricht.

3. Funktionskomprimierung und Netzwerkvereinfachung :

  • Die Pooling-Schicht kann die Feature-Map komprimieren, den Verbrauch von Rechenressourcen reduzieren, die Netzwerkstruktur vereinfachen, die Komplexität des Modells verringern, eine Überanpassung verhindern und die Generalisierungsfähigkeit des Modells verbessern.

4. Verbessern Sie die Invarianz des Modells :

  • Pooling-Operationen tragen dazu bei, die Invarianz des Modells gegenüber Skalierung, Rotation und Translation zu verbessern. Wenn sich nach dem Pooling die Größe oder der Rotationswinkel der Eingabe-Feature-Map ändert, bleiben die Größe und der Rotationswinkel der Ausgabe-Feature-Map unverändert. Diese Invarianz trägt dazu bei, die Generalisierungsfähigkeit und Robustheit des Modells zu verbessern.

5. Erreichen Sie Nichtlinearität.

3. Klassifizierung des Poolings

A. Allgemeines Pooling:

In CNN wird die Pooling-Schicht verwendet, um die räumliche Größe der Feature-Map zu reduzieren, um den Rechenaufwand zu reduzieren und die Möglichkeit einer Überanpassung zu verringern. Es gibt zwei gängigste Pooling-Vorgänge:

Durchschnittliches Pooling:
  • Berechnen Sie den Durchschnitt des Bildbereichs als gepoolten Wert dieses Bereichs.
  • Es kann das Phänomen unterdrücken, dass die Varianz der geschätzten Werte aufgrund der begrenzten Größe in der Nachbarschaft zunimmt.
  • Sein Merkmal ist, dass es einen besseren Hintergrunderhaltungseffekt hat.
Maximales Pooling:
  • Wählen Sie den Maximalwert des Bildbereichs als gepoolten Wert des Bereichs aus.
  • Es kann das Phänomen der geschätzten mittleren Abweichung unterdrücken, die durch Netzwerkparameterfehler verursacht wird.
  • Sein Merkmal ist eine bessere Extraktion von Texturinformationen.
Stochastisches Pooling:
  • Lokale Werte werden entsprechend der Wahrscheinlichkeit abgetastet, und das Stichprobenergebnis ist das Pooling-Ergebnis.

B. Überlappendes Pooling:

In einigen Fällen kann es zu Überlappungsbereichen zwischen benachbarten Pooling-Fenstern kommen. In diesem Fall wird die Größe des Pooling-Fensters im Allgemeinen größer als der Schritt (Stride) eingestellt.

Das Merkmal des überlappenden Poolings besteht darin, dass es Bildmerkmale vollständiger erfassen kann als herkömmliche Pooling-Operationen, es kann jedoch auch zu einer Erhöhung der Rechenkomplexität führen.

Diese Pooling-Methoden sind in CNN häufig verwendete technische Methoden, um die Datengröße und Parametermenge zu reduzieren und gleichzeitig wichtige Informationen beizubehalten, wodurch die Leistung und Generalisierungsfähigkeit des Modells verbessert wird.

4. Erweiterte Verwendung von Pooling --- Einführung in die SPP-Struktur

Name des Papiers: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Download-Adresse: https://arxiv.org/abs/1406.4729

Die Einführung der Spatial Pyramid Pooling (SPP)-Schicht löst die Beschränkung der festen Eingabebildgröße in herkömmlichen Faltungs-Neuronalen Netzen (CNN). Herkömmliche vollständig verbundene Ebenen erfordern Merkmalsvektoren fester Größe für die Eingabe. Das bedeutet, dass alle Eingabebilder dieselbe Größe haben müssen und normalerweise zugeschnitten oder gestreckt werden müssen, was zu Bildverzerrungen führt. Die SPP-Schicht ermöglicht es dem Netzwerk, Eingabebilder unterschiedlicher Größe zu akzeptieren, Features von Feature-Maps unterschiedlicher Größe über pyramidenförmige Pooling-Bereiche zu integrieren und zu extrahieren. Seine Funktion besteht darin, Feature-Maps unterschiedlicher Größe in Feature-Vektoren fester Größe umzuwandeln, sodass alle Eingaben die gleiche Größe haben, bevor sie mit der vollständig verbundenen Ebene verbunden werden, ohne dass das Bild im Voraus verarbeitet werden muss. Diese Flexibilität verbessert die Anwendbarkeit und Generalisierungsfähigkeiten des Netzwerks und ermöglicht es dem Modell, Eingaben unterschiedlicher Größe flexibler zu verarbeiten.

Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Die herausragenden Merkmale von SPP (Spatial Pyramid Pooling) sind:

Ausgabe mit fester Größe: SPP ist in der Lage, unabhängig von der Eingabegröße eine Ausgabe mit fester Größe zu erzeugen, wodurch die Einschränkung vollständig verbundener Schichten, die Eingaben mit fester Länge erfordern, überwunden wird.

Pooling mehrerer Fenster: SPP nutzt das Pooling mehrerer Fenster und ermöglicht so die Extraktion von Features in unterschiedlichen Maßstäben.

Skaleninvarianz und Merkmalskonsistenz: Es kann Eingabebilder mit unterschiedlichen Seitenverhältnissen und Größen verarbeiten, wodurch die Skaleninvarianz des Modells verbessert und das Risiko einer Überanpassung verringert wird.

Weitere Funktionen sind:

Die Vielfalt der Trainingsbilder erleichtert die Konvergenz des Netzwerks: SPP ermöglicht die Verwendung von Bildern unterschiedlicher Größe für das Training. Im Vergleich zu Trainingsbildern einer einzigen Größe ist diese Trainingsvielfalt der Netzwerkkonvergenz förderlicher.

Unabhängig vom spezifischen Netzwerkdesign und der spezifischen Netzwerkstruktur: SPP kann als letzte Schicht eines Faltungs-Neuronalen Netzwerks verwendet werden, ohne die Netzwerkstruktur zu beeinträchtigen, und ersetzt lediglich die ursprüngliche Pooling-Schicht.

Geeignet für die Bildklassifizierung und Zielerkennung: SPP eignet sich nicht nur für die Bildklassifizierung, sondern kann auch für Aufgaben wie die Zielerkennung verwendet werden und erweitert so seine Anwendungsbereiche.

Diese Eigenschaften von SPP machen es zu einem leistungsstarken Werkzeug, das die Ausgabe von Merkmalsvektoren fester Länge bei der Verarbeitung von Bildern unterschiedlicher Größe und Seitenverhältnissen beibehält und so die Flexibilität und Generalisierungsfähigkeiten des Modells verbessert.

Acho que você gosta

Origin blog.csdn.net/weixin_51390582/article/details/135109045
Recomendado
Clasificación