Mit oder ohne Aufsicht, vor- und nachgelagerte Aufgaben, Gaußsche Verteilung, BN-Zusammenfassung

1. Der Unterschied zwischen unbeaufsichtigt und überwacht.
Mit oder ohne Beschriftung werden Beschriftungs- und Vorhersageergebnisse verwendet, um eine Verlusttransformation durchzuführen
. Überwachtes
BERT – Im Vortraining wird das Training an einem unbeschrifteten Datensatz durchgeführt.
Bei der Feinabstimmung wird ein BERT-Modell verwendet wird ebenfalls verwendet, aber sein Gewicht wird auf das im Vortraining erhaltene Gewicht initialisiert und die beschrifteten Daten werden feinabgestimmt.
Genauer gesagt gehört das Vortrainingsmodell von BERT zum selbstüberwachten Lernen, das einen Teil maskiert des Tokens in einem Satz und gibt ihn in das Modell ein. Lassen Sie das Modell dann den gesamten Satz vorhersagen und die Kontextbeziehung des Datensatzes lernen.
Die Daten wurden nicht manuell beschriftet, sodass sie als unbeaufsichtigtes Lernen betrachtet werden können.
2. p(a,b|c) und p(ab|c) haben dieselbe Bedeutung, was bedeutet, dass unter der Voraussetzung, dass c auftritt, a und Die Wahrscheinlichkeit von b. p(a|b,c) bedeutet, dass unter der Voraussetzung, dass b und c auftreten, die Wahrscheinlichkeit des Auftretens von
a p(a,b|c)=P(a,b,c)/P(c) = P(a) ist ,b ,c)/P(a|b,c) * P(b,c)/P( c) = P(a|b,c) * P(b|c) 3. Auszug aus den Upstream-Aufgaben und Nachgelagerte Aufgabe der
Computer Vision.
Vorgelagerte Aufgabe:
Vortrainingsmodell. Im Allgemeinen wird ein Vortraining für Upstream-Daten durchgeführt, um ein Modell mit visuellen Darstellungen zu generieren.
Downstream-Aufgaben:
Downstream-Aufgaben sind Computer-Vision-Anwendungen, die die Qualität der durch selbstüberwachtes Lernen erlernten Funktionen bewerten. Wenn Trainingsdaten knapp sind, können diese Anwendungen stark von vorab trainierten Modellen profitieren.

Bei den nachgelagerten Aufgaben handelt es sich eher um Bewertungsaufgaben, die der Projektumsetzung entsprechen. Zur Bewertung der Qualität des Modells müssen bestimmte Aufgaben erledigt werden.
Wie Zielerkennung und semantische Segmentierung
4.
Warum verwenden viele Verteilungen beim maschinellen Lernen die Gaußsche Verteilung? Auszug aus der Gaußschen Verteilung beim maschinellen Lernen.
Viele Modelle beim maschinellen Lernen basieren auf der Annahme, dass die Daten der Gaußschen Verteilung gehorchen (nicht unbedingt der Gaußschen Verteilung gehorchen, eine Näherung ist ebenfalls möglich). Die meisten Modelle des maschinellen Lernens haben eine Wahrscheinlichkeitsverteilung Da der Kern auch davon ausgeht, dass es sich bei den Daten um Gaußsche Daten handelt. Verteilungen wie generative Modelle: Naive Bayes-Klassifizierung, GMM. Im Fall der Gauß-Verteilung sind die Ergebnisse, die wir mit dem entsprechenden Modell erhalten, nur robust. Wenn die Datenmerkmale nicht Gauß-verteilt sind, ist es manchmal erforderlich, eine mathematische Transformation zu finden, um die Merkmale entsprechend der Gauß-Verteilung umzuwandeln.
Gemäß dem zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie ist die Grenze vieler Verteilungen bei unendlicher Stichprobengröße die Gaußsche Verteilung (Normalverteilung) . In der Realität werden viele Zufallsvariablen durch den kombinierten Einfluss einer großen Anzahl unabhängiger Zufallsfaktoren gebildet. und Jeder dieser Faktoren spielt eine kleine Rolle in der Gesamtauswirkung, und solche Zufallsvariablen neigen dazu, annähernd einer Gaußschen Verteilung zu folgen (dem objektiven Hintergrund des zentralen Grenzwertsatzes).
Aus entropischer Sicht ist die Entropie der Gaußschen Verteilung die größte unter allen anderen Verteilungen, wenn der Mittelwert und die Varianz der Daten bekannt sind (der ursprüngliche Datenverteilungstyp ist unbekannt). Gemäß dem Entropiestandard entspricht „maximale Entropie“ ungefähr der „nächstgleichen Verteilung unter denselben Einschränkungen“, was realistischer ist. Es versteht sich, dass die „Maximierung der Entropie“ darin besteht, das Ideal der Realität näher zu bringen und den speziellen Ansatz zum Allgemeinen zu machen, wodurch das Modell allgemeiner wird. Beachten Sie, dass die Entropie der Gaußschen Verteilung tatsächlich durch die Varianz bestimmt wird. „Maximale Entropie der Gaußschen Variablen“ ist eine Schlussfolgerung vor dem Hintergrund der festen Varianz. Unterschiedliche Varianzen führen offensichtlich zu unterschiedlichen Gaußschen Verteilungen, und eine Gaußsche Verteilung mit größerer Entropie hat eine größere Varianz – und ist auf der realen Achse eher „einheitlich“. Welche Modelle gehen davon aus, dass die Daten einer Gaußschen Verteilung
gehorchen:

Modelle mit maximaler Wahrscheinlichkeit und EM: logistische Regression, GMM, Naive Bayes...
Modelle mit der Berechnung der größten Varianz (maximale Entropieverteilung): PCA, LDA... In
einigen Artikeln heißt es, dass die lineare Regression Daten erfordert, die der Gaußschen Verteilung gehorchen. Diese Aussage ist nicht korrekt. Die Menschen hoffen, dass die Restverteilung der linearen Regression der Gaußschen Verteilung folgt. Wenn das Residuum nicht der Gaußschen Verteilung entspricht, bedeutet dies, dass die Modellleistung schlecht ist.

GMM der Gaußschen Verteilung und Clusterung
Das Gaußsche Mischungsmodell (GMM) ist ein probabilistisches generatives Modell. Das Modell erreicht Clustering, indem es die vorherige Verteilung lernt und dann die hintere Verteilung ableitet. Wenn wir eine Clustering-Aufgabe ausführen, können wir die Stichproben auf der Grundlage des Prinzips der nächsten Entfernung, z. B. des k-means-Algorithmus, auf das nächstgelegene Clusterzentrum gruppieren oder die Stichproben auf den Cluster gruppieren, der dem Rand eines Clusters am nächsten liegt, z. B B. als DBSCAN-Algorithmus, während GMM davon ausgeht, dass die charakteristische Verteilung jeder Stichprobenklasse einer Gaußschen Verteilung folgt . Das heißt, der gesamte Datensatz kann durch eine lineare Kombination von Gaußschen Verteilungen mit unterschiedlichen . Der GMM-Algorithmus kann den Wahrscheinlichkeitswert berechnen jeder Stichprobe gehört zu jedem Cluster und gruppiert sich zu dem Cluster mit dem größten Wahrscheinlichkeitswert.
5. Die Grundidee von BatchNorm [Auszug aus anderen Blogs]
Mit zunehmender Tiefe des Netzwerks oder während des Trainingsprozesses verschiebt sich seine Verteilung allmählich oder ändert sich. Der Grund für die langsame Konvergenz des Trainings liegt im Allgemeinen darin, dass sich die Gesamtverteilung allmählich in Richtung bewegt Der Wertebereich der nichtlinearen Funktion. Die oberen und unteren Grenzen von liegen nahe beieinander (für die Sigmoid-Funktion bedeutet dies, dass der Aktivierungseingabewert an beiden Enden ein großer negativer oder positiver Wert ist), sodass dies den Gradienten von verursacht Das neuronale Netzwerk auf niedriger Ebene verschwindet während der Backpropagation, was darin besteht, ein tiefes neuronales Netzwerk zu trainieren. Der wesentliche Grund für die immer langsamere Konvergenz.
Was nützt es also, die Aktivierungseingabe x an diese Normalverteilung anzupassen?
Unter der Annahme, dass der ursprüngliche Normalverteilungsmittelwert von Der Wert liegt offensichtlich nahe bei 0, und der Wert der Ableitung ist die Gradientensättigungszone, was bedeutet, dass die Gradientenänderung gering ist oder sogar verschwindet. Unter der Annahme, dass nach BN der Mittelwert 0 und die Varianz 1 beträgt, bedeutet dies, dass 95 % der x-Werte in das Intervall [-2, 2] fallen. Es ist offensichtlich, dass dieser Abschnitt der Bereich ist, in dem das Sigmoid( Die Funktion x) kommt einer linearen Transformation nahe. Dies bedeutet, dass kleine Änderungen in x zu großen Änderungen des Werts der nichtlinearen Funktion und auch zu großen Änderungen des Gradienten führen. Der entsprechende Bereich im Diagramm der Ableitungsfunktion, der deutlich größer als 0 ist ist der ungesättigte Gradientenbereich.

Nach BN fallen die meisten Aktivierungswerte derzeit in den Bereich, in dem der lineare Bereich der nichtlinearen Funktion empfindlicher auf die Eingabe reagiert und seine entsprechende Ableitung weit vom Sättigungsbereich der Ableitung entfernt ist. Auf diese Weise klein Änderungen in der Eingabe führen zu großen Änderungen in der Verlustfunktion. Dies bedeutet, dass der Gradient größer wird, um das Problem des Verschwindens des Gradienten zu vermeiden, und ein größerer Gradient bedeutet, dass das Lernen schnell konvergiert, was die Trainingsgeschwindigkeit erheblich beschleunigen kann. Da der Gradient immer relativ groß bleiben kann, ist es offensichtlich, dass die Parameteranpassungseffizienz des neuronalen Netzwerks relativ hoch ist, das heißt, die Änderungen sind groß, das heißt, die Schritte zum optimalen Wert der Verlustfunktion sind groß, was bedeutet, dass die Konvergenz schnell ist.

Wenn sie alle BN bestehen, hätte das nicht den gleichen Effekt, als würde man die nichtlineare Funktion durch eine lineare Funktion ersetzen? Die Transformation einer mehrschichtigen linearen Funktion ist bedeutungslos, da ein mehrschichtiges lineares Netzwerk einem einschichtigen linearen Netzwerk entspricht. Die wiederholte Verwendung einer Matrix zum Multiplizieren der Eingabe entspricht einer Matrixmultiplikation. Die Multiplikation mehrerer Matrizen ist immer noch eine Matrix. Zur Lösung dieses Problems gibt es Aktivierungsfunktionen.
BN sorgt dafür, dass die Eingabeverteilung den Mittelwert 0 und die Varianz 1 hat. Beim Durchlaufen der Aktivierungsfunktion geht die Fähigkeit zum Datenausdruck verloren. Um die Fähigkeit zum Datenausdruck wiederherzustellen, wird der Erwerb von Nichtlinearität sichergestellt. Für das transformierte x, das den Mittelwert 0 und die Varianz 1 erfüllt, wird die Skalierung plus Verschiebungsoperation für die lineare Transformation durchgeführt (y = Skalierung * x + Verschiebung). Jedes Neuron fügt zwei Parameter hinzu, Skalierungs- und Verschiebungsparameter. Dieser Parameter Wird durch Training gelernt, was bedeutet, dass der Wert durch Skalierung und Verschiebung von der Standardnormalverteilung nach links oder rechts verschoben wird und breiter oder dünner wird. Der Grad der Bewegung jeder Instanz ist unterschiedlich, was äquivalent ist Der Wert des Nichtlinearen Die Funktion bewegt sich vom linearen Bereich um die Mitte zum nichtlinearen Bereich. Die Kernidee sollte darin bestehen, einen besseren Gleichgewichtspunkt zwischen Linearität und Nichtlinearität zu finden, damit man nicht nur die Vorteile der starken Ausdrucksfähigkeit der Nichtlinearität genießen kann, sondern auch vermeiden kann, zu nahe an beiden Enden des nichtlinearen Bereichs zu sein, was zu Problemen führt Die Netzwerkkonvergenzgeschwindigkeit ist zu langsam.
6. Beim Deep Learning können semantische Informationen allgemein als Informationen wie Textur, Farbe oder Zielkategorie des Bildes verstanden werden. Beispielsweise wird im Erkennungsnetzwerk ein Bild in das Netzwerk eingegeben und anschließend schichtweise gefaltet , Die semantischen Informationen werden immer offensichtlicher, aber die relativen Positionsinformationen werden immer schwächer, denn je höher der Faltungsgrad, desto größer ist das Empfangsfeld der auf das Originalbild abgebildeten Merkmalskarte, sodass die lokale Position Informationen werden leichter spürbar. Unterschied.
 Die Semantik von Bildern ist in visuelle Ebene, Objektebene und Konzeptebene unterteilt. Die visuelle Ebene ist die allgemein verstandene unterste Ebene, dh Farbe, Textur, Form usw. Diese Merkmale werden als Merkmalssemantik der unteren Ebene bezeichnet. Die semantischen Informationen der Ebenenmerkmale des Bildes werden verglichen. Es gibt nur wenige, aber die Zielposition ist genau.
 Die Objektebene ist die mittlere Ebene, die normalerweise Attributmerkmale usw. enthält, die den Zustand eines Objekts zu einem bestimmten Zeitpunkt darstellen. Die
 Konzeptebene ist die hohe Ebene, die dem durch das Bild ausgedrückten menschlichen Verständnis am nächsten kommt. Die hohe Ebene Die Merkmale werden als menschliches Gesicht angezeigt. Semantische Informationen zu Merkmalen auf hoher Ebene sind relativ umfangreich, der Zielort ist jedoch relativ grob.

Supongo que te gusta

Origin blog.csdn.net/weixin_44040169/article/details/127427804
Recomendado
Clasificación