Anwendungsszenarien und Eigenschaften von BN und LN

Beziehung zwischen BN und LN

Sowohl BN als auch LN können das Verschwinden des Gradienten und die Explosion des Gradienten besser unterdrücken. BN eignet sich nicht für sequentielle Netzwerke wie RNN und Transformer und ist nicht für Situationen geeignet, in denen die Textlänge variabel und die Stapelgröße klein ist. Es eignet sich für Netzwerke wie CNN in CV, während LN für Netzwerke wie z
RNN und Transformator in NLP, weil Die Länge der Sequenz kann inkonsistent sein.
Kastanie: Wenn ein Textstapel zu einem Stapel geformt wird, bearbeitet BN das erste Wort jedes Satzes und BN skaliert jede Position, was nicht dem Gesetz von NLP entspricht.

Zusammenfassung

(1) Nach der BN-Normalisierung und anschließender Eingabe der Aktivierungsfunktion fallen die meisten erhaltenen Werte in den linearen Bereich der nichtlinearen Funktion, und die Ableitung ist weit vom Ableitungssättigungsbereich entfernt, wodurch das Verschwinden des Gradienten vermieden wird. um den Trainingskonvergenzprozess zu beschleunigen.

Guess you like

Origin blog.csdn.net/WitsMakeMen/article/details/131626186