Bewertung von PAUC für unausgewogenes Online-Lernen

Bewertung von PAUC für unausgewogenes Online-Lernen

Originalpapier „Präquentielle AUC: Eigenschaften der Fläche unter der ROC-Kurve für Datenströme mit Konzeptdrift“
Da die normale AUC den Gesamtdatensatz berechnen muss, müssen die einzelnen Daten bewertet werden Prognosesicherheit. Dann verlangen wir zunächst von unserem Online-Lernalgorithmus, dass er bei Vorhersagen auch den Wahrscheinlichkeitswert einer bestimmten Kategorie zurückgibt, und beschränken ihn auf die binäre Klassifizierung.

Dann wird eine spezielle Sortierstruktur in Kombination mit einem Mechanismus zum Vergessen des Schiebefensters verwendet, um die AUC nach jedem Beispiel inkrementell zu berechnen. Da wir uns nicht an alle Beispiele erinnern können, können wir sie nicht nach der ursprünglichen Berechnung der AUC einordnen. Damit die AUC rechnerisch machbar und auf sich entwickelnde Konzepte anwendbar ist, muss sie mithilfe eines Schiebefensters berechnet werden. Ein verschiebbares Bewertungsfenster beschränkt die Analyse auf die neuesten Daten, aber um die AUC zu berechnen, müssen die Bewertungen sortiert werden. Um einen sortierten Satz von Bewertungen effizient zu verwalten, empfehlen wir die Verwendung einer Rot-Schwarz-Baum-Datenstruktur.

Der Pseudocode lautet:

Fügen Sie hier eine Bildbeschreibung ein

Die spezifische Textbeschreibung lautet:

  • Für jedes eingehende beschriftete Beispiel wird die vom Klassifizierer diesem Beispiel zugewiesene Bewertung in das Fenster (Zeile 15) sowie in den Rot-Schwarz-Baum (Zeile 10) eingefügt, und die älteste Bewertung wird gelöscht, wenn das Beispielfenster gelöscht wurde überschritten (Zeilen 5 und 15)
  • Rot-Schwarz-Bäume werden in absteigender Reihenfolge basierend auf der Punktzahl und in aufsteigender Reihenfolge basierend auf der Ankunftszeit sortiert, wenn die Punktzahl vor einer negativen Zahl positiv ist. Auf diese Weise behalten wir eine Struktur bei, die die Berechnung der AUC erleichtert und sicherstellt, dass der älteste Wert im Schiebefenster rechtzeitig im Rot-Schwarz-Baum gefunden wird.
  • Nachdem das Schiebefenster und der Baum aktualisiert wurden, wird dieser Wert normalisiert, indem die Anzahl der positiven Beispiele, die vor jedem negativen Beispiel erscheinen (Zeilen 18–28), und alle möglichen Paare pn (Zeile 29) summiert werden, um die AUC zu berechnen, wobei p ist die Anzahl der positiven Werte im Fenster und n ist die Anzahl der negativen Werte.
  • In Zeile 26 betrachten wir die gebrochene Beziehung zwischen positiven und negativen Beispielen, indem wir das AUC-Inkrement reduzieren.

Ein Beispiel ist unten dargestellt:

Fügen Sie hier eine Bildbeschreibung ein

Fenster W enthält sechs Beispiele, die alle in den rot-schwarzen Baum eingefügt wurden. Wie bereits erwähnt, werden die Beispiele im Baum in absteigender Reihenfolge (Tiefensuche) basierend auf der Punktzahl s, mit Bestätigungen vor Negationen, und in aufsteigender Reihenfolge basierend auf der Ankunftszeit t sortiert. Wenn eine neue Instanz vom Klassifikator bewertet wird (t: 7, l: +, s: 0,80), wird die älteste Instanz (t: 1) aus dem Fenster und Baum entfernt. Nach dem Einfügen neuer bewerteter Beispiele wird die AUC berechnet, indem der Baum in einer Tiefensuche durchsucht wird und die in den Zeilen 17–29 von Algorithmus 1 dargestellten Beschriftungen gezählt werden.

Und es wurde experimentell nachgewiesen, dass die über die Zeit gemittelte sequentielle AUC in hohem Maße konsistent ist und sich deutlich von der über den gesamten Fluss berechneten AUC unterscheidet.

おすすめ

転載: blog.csdn.net/StarandTiAmo/article/details/134125918