[Studiennotizen] Kapitel 2 des Xigua-Buches Maschinelles Lernen: Modellbewertung und -auswahl sowie Grundlagen des statistischen Hypothesentests

1. Bewertungsmethode

Um den Generalisierungsfehler des Lernenden zu bewerten, muss ein Testsatz (nicht im Trainingssatz) verwendet werden, um die Fähigkeiten des Modells zu testen. Zu diesem Zeitpunkt werden wir den Datensatz D entsprechend verarbeiten und den Trainingssatz S und den Testsatz T von D erhalten. Darüber hinaus ist in D manchmal ein Validierungssatz (Validierung) erforderlich, um die Ergebnisse verschiedener Modelle zu vergleichen.

1.1 Zurückhalten

Konkret ist der Datensatz in zwei sich gegenseitig ausschließende Sätze unterteilt. Beispielsweise ist der Datensatz in 37 Punkte unterteilt, 7 Punkte als Trainingssatz und 3 Punkte als Testsatz. Im Allgemeinen werden mehrere Zufallsteilungen verwendet, die experimentelle Auswertung wiederholt und der Durchschnittswert als Ergebnis der Hold-out-Methode verwendet. Es ist wichtig, das Teilungsverhältnis zu beachten, weil:

Zu viele S-----Zu wenige T------Die Bewertungsergebnisse sind möglicherweise nicht genau genug.
Zu wenige S-----Zu viele T------Die Lücke zwischen dem realen Modell und Das reale Modell ist zu groß.

1.2 Kreuzvalidierung

Teilen Sie den Datensatz D in K sich gegenseitig ausschließende Teilmengen gleicher Größe auf. Jedes Mal werden die K-1-Teilmengen als Trainingssatz und die verbleibende Teilmenge als Testsatz verwendet. Auf diese Weise können K Sätze von Trainingssätzen und Testsätzen erhalten werden, sodass k Training und Tests durchgeführt werden können und die endgültige Rendite auch der Mittelwert der k Sätze von Testergebnissen ist.

Wenn insgesamt m Stichproben vorhanden sind, k = m, wird die in diesem speziellen Fall erhaltene Kreuzvalidierungsmethode als Leave-One-Out bezeichnet. Der Vorteil der Leave-One-Out-Methode besteht darin, dass das tatsächlich bewertete Modell dem sehr nahe kommt das erwartete bewertete Modell. Ähnlichkeit. Der Nachteil besteht darin, dass der Rechenaufwand zu hoch ist.

1.3 Bootstrapping

Die beiden oben genannten Methoden haben einen Nachteil: Der Trainingssatz ist kleiner als der tatsächliche Datensatz D, und wir wollen das von D trainierte Modell. Daher löst die Bootstrap-Methode dieses Problem sehr gut. Im Datensatz D von jeweils m Stichproben

Acho que você gosta

Origin blog.csdn.net/weixin_52589734/article/details/112372864
Recomendado
Clasificación