Eine kurze Beschreibung des neuronalen Netzwerks

Wie neuronale Netze lernen

Neuronale Netze lernen durch den Backpropagation-Algorithmus. Zunächst nimmt das Netzwerk Eingabedaten entgegen und leitet sie an die Ausgabeschicht weiter. Die Ausgabe wird mit dem erwarteten Ergebnis verglichen und der Fehler berechnet. Dieser Fehler wird durch die Schichten des Netzwerks zurückpropagiert, um die Gewichtungen und Verzerrungen so anzupassen, dass die Ausgabe näher am erwarteten Ergebnis liegt. Dieser Vorgang wird wiederholt, bis eine bestimmte Präzision oder Anzahl erreicht ist.

Die Metapher des Bildes ist: einen Berg besteigen

Der Lernprozess des neuronalen Netzwerks ähnelt dem einer Person, die einen Berg erklimmt. Der Input des Netzwerks ist der Ausgangspunkt seines Abgangs, der Output ist der Endpunkt, den er erreicht, und das Gewicht und die Abweichung sind die Werkzeuge, die er während des Lernvorgangs verwendet Klettervorgang (z. B. Wanderschuhe, Trekkingstöcke warten). Und die Verlustfunktion ist wie ein Zeichen, das ihm sagt, wie weit er vom Ziel entfernt ist. Er wird sein Tempo und seine Werkzeuge ständig anpassen, um die Distanz zu verkürzen, bis er die Ziellinie erreicht.

Der Backpropagation-Algorithmus ist so, als ob er sein Tempo und seine Hilfsmittel ständig anpasst, um die Distanz beim Gehen zu verkürzen, z. B. indem er ein Paar bequemere Schuhe wechselt oder auf einen stärkeren Stock umsteigt. Dieser Vorgang wird so lange wiederholt, bis er das Ende erreicht oder sein Bestes gegeben hat.

Dabei ist das Gewicht wie das Gewicht von Wanderschuhen: Je schwerer es ist, desto schwieriger ist es, den Berg zu erklimmen, aber wenn die Schuhe zu leicht sind, werden die Füße instabil und man rutscht leicht aus. Die Rolle des Gewichts besteht darin, die Wichtigkeit der Eingabe zu bestimmen, und das Anpassen des Gewichts entspricht dem Anpassen des Gewichts des Schuhs.

Die Abweichung entspricht der Länge eines Wanderstocks. Je länger er ist, desto einfacher ist es, den Berg zu erklimmen. Wenn der Stock jedoch zu kurz ist, wird dies zu Unannehmlichkeiten für die Füße führen und dazu führen, dass er leicht herunterfällt. Die Funktion der Abweichung besteht darin, den Offset des Ausgangs anzupassen, und das Anpassen der Abweichung entspricht dem Anpassen der Länge des Alpenstocks.

Kurz gesagt, Gewicht und Bias sind zwei wichtige Parameter im Netzwerk-Lernprozess, und die Genauigkeit des Netzwerks kann durch Anpassen verbessert werden.

einfache mathematische Beschreibung

Der Lernprozess neuronaler Netze kann durch mathematische Gleichungen dargestellt werden.

Erstens ist die Eingabe des Netzwerks x, die Gewichtsmatrix ist W, die Vorspannung ist b und die Ausgabe ist y. Im Allgemeinen müssen diese Parameter gelernt werden.

Die Ausgabe y kann durch Matrixmultiplikation und Addition der Vorspannung dargestellt werden: y = Wx + b

Um als nächstes die Lücke zwischen der Ausgabe y und der erwarteten Ausgabe zu messen, verwenden wir zur Messung die Verlustfunktion L(y,y_) (y_ ist die erwartete Ausgabe). Zu den häufig verwendeten Verlustfunktionen gehören der mittlere quadratische Fehler, die Kreuzentropie usw.

Der letzte ist der Backpropagation-Algorithmus, der die Gewichte und Verzerrungen mithilfe der Gradientenabstiegsmethode anpasst, um die Verlustfunktion zu minimieren.

Die Aktualisierung von Gewichtungen und Bias kann durch die folgende Formel ausgedrückt werden: W = W – Lernrate * dL/dW b = b – Lernrate * dL/db

Dabei ist learning_rate die Lernrate und dL/dW und dL/db die Gradienten der Gewichtungen und Verzerrungen.

Dieser Vorgang wird wiederholt, bis die Verlustfunktion eine bestimmte Genauigkeit erreicht oder die maximale Anzahl von Iterationen erreicht.

komplexe mathematische Beschreibung

Der Lernprozess durch das Netzwerk kann durch fortgeschrittene Mathematik ausgedrückt werden, die hauptsächlich Kenntnisse in Wahrscheinlichkeitsstatistik, Gradientenabstiegsmethode und konvexer Optimierung umfasst.

Erstens können wir davon ausgehen, dass die Eingabe in das Netzwerk unabhängig und identisch verteilt ist und die Ausgabe eine bedingte Wahrscheinlichkeitsverteilung ist. Für eine gegebene Eingabe x und Beschriftung y können wir die Bayes'sche Formel verwenden, um die Wahrscheinlichkeit der Ausgabe y auszudrücken: p(y|x;W,b) = p(y|f(x;W,b))

Wobei f(x;W,b) die Entscheidungsfunktion des Netzwerks ist, die durch Matrixoperationen und nichtlineare Aktivierungsfunktionen ausgedrückt werden kann, die die Eingabe x einem hochdimensionalen Raum zuordnen können.

Als nächstes können wir die Maximum-Likelihood-Schätzung verwenden, um die Gewichte und Verzerrungen zu lernen, d. h. den Maximalwert der folgenden Funktion zu ermitteln: L(W,b) = log p(y|x;W,b)

Dieser Prozess kann mithilfe der Gradientenabstiegsmethode optimiert werden, wobei wir für jeden Parameter die Kettenableitungsregel verwenden können, um seine partielle Ableitung für die Verlustfunktion zu ermitteln.

Schließlich können wir konvexe Optimierungsalgorithmen verwenden, um die optimale Lösung der Verlustfunktion zu finden, z. B. die Quasi-Newton-Methode, L-BFGS usw.

Kurz gesagt bedeutet die Verwendung komplexerer Mathematik zur Darstellung des Lernprozesses des neuronalen Netzwerks, fortgeschrittene mathematische Kenntnisse wie Wahrscheinlichkeitsstatistik und konvexe Optimierung zu verwenden, um die Eingabe-Ausgabe-Beziehung des Netzwerks zu beschreiben und das Gewicht und die Abweichung durch die Maximum-Likelihood-Schätzung zu ermitteln und Gradientenabstiegsmethode. Optimale Lösung. Dies ermöglicht einen strengeren mathematischen Rahmen, um den Lernprozess des Netzwerks zu verstehen und zu erklären, und ermöglicht außerdem die Verwendung effizienterer Optimierungsalgorithmen, um den Trainingsprozess zu beschleunigen.

Supongo que te gusta

Origin blog.csdn.net/weixin_42043935/article/details/128719250
Recomendado
Clasificación