Maschinelles Lernen: Logistische Regression und maximale Entropie

I. Übersicht

(1) Maximum-Entropie-Modell

Das Maximum-Entropie-Modell ist ein Lernkriterium für Wahrscheinlichkeitsmodelle, das auf verschiedene Wahrscheinlichkeitsmodelle angewendet werden kann.

Nehmen Sie als Beispiel das bedingte Wahrscheinlichkeitsverteilungsmodell:

Modell:

Es handelt sich auch um eine Optimierungsstrategie, bei der max. Pw gelöst und der Parameter w ermittelt wird 

Strategie:

Eingeschränktes Optimierungsproblem:

Optimierungsproblem in dualer Form.

Ermitteln Sie im selben Modell den maximalen Pw, um den Parameter w zu erhalten.

 (2) Logistische Regression

Binomiales logistisches Regressionsmodell:

Multinomiales logistisches Regressionsmodell: 

Optimierung:

Lösen Sie den maximalen geschätzten Wert der folgenden Wahrscheinlichkeitsfunktion, um den Parameter w zu erhalten

Mit w wird das Modell verwendet, um die Wahrscheinlichkeitswerte der beiden Kategorien zu berechnen und die Klassifizierungsergebnisse zu erhalten. 

2. Hauptinhalt

(1) Maximale Entropie

Das Prinzip der maximalen Entropie ist ein Kriterium für probabilistisches Modelllernen. Das Prinzip der maximalen Entropie geht davon aus, dass beim Lernen eines Wahrscheinlichkeitsmodells unter allen möglichen Wahrscheinlichkeitsmodellen (Verteilungen) das Modell mit der größten Entropie das beste Modell ist. Einschränkungen werden normalerweise verwendet, um den Satz von Wahrscheinlichkeitsmodellen zu bestimmen. Daher kann das Prinzip der maximalen Entropie auch so ausgedrückt werden, dass das Modell mit der größten Entropie aus dem Satz von Modellen ausgewählt wird, der die Einschränkungen erfüllt.

//================== Ergänzung ====================//

Intuitiv geht das Prinzip der maximalen Entropie davon aus, dass das zu wählende Wahrscheinlichkeitsmodell zunächst die vorhandenen Fakten, also die Einschränkungen, erfüllen muss. In Ermangelung weiterer Informationen wird es aufgrund dieser unsicheren Teile als gleich wahrscheinlich “ eingestuft , d. h. die Wahrscheinlichkeit ist gleich, sodass die Entropie am größten ist . Das Prinzip der maximalen Entropie drückt die gleiche Möglichkeit, also die gleiche Wahrscheinlichkeit, durch die Maximierung der Entropie aus. Gleichwahrscheinlichkeit ist nicht einfach zu bedienen, aber Entropie ist ein numerischer Index, der optimiert werden kann. 

Daher ist die Entropie ein quantitativer Indikator zur Messung der Gleichheitswahrscheinlichkeit. Je größer die Entropie, desto größer die Unordnung und desto mehr Informationen enthält sie.

Abbildung 6.2 bietet eine geometrische Interpretation der probabilistischen Modellauswahl unter Verwendung des Prinzips der maximalen Entropie. Der Wahrscheinlichkeitsmodellsatz P kann durch einen Simplex im euklidischen Raum dargestellt werden, beispielsweise durch das Dreieck (2-Simplex) in der linken Abbildung . Ein Punkt stellt ein Modell dar, und der gesamte Simplex stellt eine Sammlung von Modellen dar. Eine gerade Linie in der rechten Abbildung entspricht einer Einschränkung, und der Schnittpunkt der Linien entspricht der Menge von Modellen, die alle Einschränkungen erfüllen. Generell gibt es immer noch unendlich viele solcher Modelle. Der Zweck des Lernens besteht darin, das optimale Modell aus dem möglichen Modellsatz auszuwählen, und das Prinzip der maximalen Entropie liefert ein Kriterium für die optimale Modellauswahl.

//====================================// 

Das Prinzip der maximalen Entropie kann auf verschiedene Wahrscheinlichkeitsmodelle angewendet werden. Hier nehmen wir das bedingte Wahrscheinlichkeitsmodell als Beispiel, um den Lösungsprozess zu erklären.

 Einschränkungen:

Der Unterschied zwischen dem Maximum-Entropie-Modell und dem naiven Bayes-Modell besteht darin, dass es mehrere Einschränkungen enthält.

(1) Im Folgenden werden die Einschränkungen eingeführt, die durch die charakteristische Funktion f (x, y) dargestellt werden.

Ein Modell kann mehrere solcher Einschränkungen enthalten. 

(2) Konstruieren Sie eine weitere logische Einschränkung.

 

Denn wenn das Gesetz aus dem Trainingssatz erhalten werden kann, dann gibt es eine Formel: P(X,Y) = P(Y|X)P(X), also gibt es die obige Gleichung, die auch eine der Einschränkungen darstellt zufrieden sein.

Unter diesen sind P(x) und P(X,Y) die bekannten Ergebnisse, die aus dem Trainingssatz erhalten wurden, und P(Y|X) ist das zu erhaltende Ergebnis.

Im Vergleich zur naiven Bayes'schen Klassifizierung werden die empirische Verteilung der gemeinsamen Wahrscheinlichkeitsverteilung und die empirische Verteilung der Grenzwahrscheinlichkeitsverteilung aus dem Trainingsdatensatz zusammengefasst. Die bedingte Wahrscheinlichkeitsverteilung kann mithilfe der Formel P(Y|X) = ermittelt werden  . Die Berechnungsformel ist wie oben.

 

Dies ist die Berechnungsmethode des Modells ohne Einschränkungen. Wenn Einschränkungen einbezogen werden, wird eine allgemeinere Methode verwendet: das Maximum-Entropie-Modell.

 

//================ Vorkenntnisse ==================//

Die Formel zur Berechnung der Entropie lautet:

Die Formel zur Berechnung der bedingten Entropie lautet: 

//======================================// 

Erstellen Sie eine Optimierungsstrategie:

Nachdem wir nun die Berechnungsformel und die Einschränkungen der oben genannten bedingten Entropie haben, besteht unser Ziel darin, die maximale Entropie zu finden und gleichzeitig die Einschränkungen zu erfüllen. Es gibt also:

 Ein kleiner Umbau hat:

Die Lösung des oben genannten eingeschränkten Problems ist die Lösung des Maximum-Entropie-Modells. 

Bei der Lösung können die oben genannten eingeschränkten Probleme in uneingeschränkte Probleme umgewandelt werden.

 

 

Das interne Minimierungsproblem besteht darin, zunächst die partielle Ableitung von P (y | x) zu berechnen, und das Ergebnis ist nur w 

 

 

F: 

F: 

Es gibt also: 

 Das durch Maximierung erhaltene w ist der Parameter des Modells. Erhalten Sie auch die bedingte Wahrscheinlichkeit P(y|x)

(2) Logistische Regression

Modell:

Strategie: 

 

//===================== Ergänzung ===================// 

 //=====================================//

Optimierung:

Verwendung der Maximum-Likelihood-Schätzung

 

 Multinomiale logistische Regression

  • Algorithmus: häufig verwendete Newton-Methode, Gradientenabstiegsmethode, verbesserte iterative Skalierungsmethode

 

Ich denke du magst

Origin blog.csdn.net/stephon_100/article/details/125242834
Empfohlen
Rangfolge