41. BatchNorm – Was ist Batch-Normalisierung?

Im CNN-Netzwerk gibt es eine sehr wichtige Technologie namens Batch-Normalisierung (bn, BatchNorm).

Die Normalisierungsschicht befindet sich im Allgemeinen hinter der Faltung. In der Wissenschaft oder im Ingenieurwesen ist es im Allgemeinen üblich, Faltung + Stapelnormalisierung + Aktivierung in einer kleinen Netzwerkstruktur zu vereinen, die umgangssprachlich beispielsweise als conv + bn + relu bezeichnet wird.

Dies liegt daran, dass auf die Faltung im Grunde definitiv eine Batch-Normalisierung folgt und die Aktivierungsfunktion relu definitiv befolgt wird.

Um den tatsächlichen Namen näher zu kommen, wird in den folgenden Artikeln die Batch-Normalisierung als BN, die Faltung als Conv und das Pooling als Pooling bezeichnet.

Warum gibt es so etwas wie BN?

Wir alle verstehen Normalisierung, die darin besteht, den Mittelwert und die Varianz einer Reihe von Daten zu berechnen und dann alle Daten durch Subtrahieren des Mittelwerts dividiert durch die Varianz oder andere Methoden auf das Intervall [0,1] zu normalisieren.

Warum gibt es also auch in neuronalen Netzen eine Normalisierung?

Dies liegt hauptsächlich daran, dass im eigentlichen Trainingsprozess im Allgemeinen mehrere Stapel zum Training verwendet werden und die Datenverteilung mehrerer Stapel nicht vollständig konsistent ist.

Ich habe zum Beispiel 10.000 Bilder für das Training. Aufgrund von Einschränkungen bei den Rechenressourcen oder anderen Aspekten ist es mir unmöglich, alle 10.000 Bilder für jede Trainingssitzung in das neuronale Netzwerk einzuspeisen.

Die meisten Methoden bestehen darin, die 10.000 Trainingsbilder in 10 Teile zu unterteilen und dem neuronalen Netzwerk jedes Mal 1.000 Bilder zum Training zuzuführen. Diese 1.000 Bilder werden als Mini-Batch bezeichnet, bei dem es sich um einen kleinen Stapel von Trainingsdaten handelt.

Es stellt sich also die Frage: Wie stellen wir sicher, dass die Daten in den 10 Bildtrainingssätzen die gleiche Verteilung haben?

Zum Beispiel verwenden wir grob ein Graustufenbild, um die Verteilung von Bildern darzustellen: Wenn der größte Teil des Bildes schwarz ist, bedeutet dies, dass die Bilddaten nahe bei 0 liegen; wenn der größte Teil des Bildes weiß ist, bedeutet dies, dass die Verteilung der Die Bilddaten liegen bei etwa 255. Eine Beschreibung von Graustufenbildern finden Sie im Kapitel zu Graustufenbildern am Anfang.

Gehen Sie weiterhin davon aus, dass die meisten Bilder im ersten Teil schwarze Bilder sind, und im zweiten Teil

Guess you like

Origin blog.csdn.net/dongtuoc/article/details/135042349