Einfache Überprüfung: Teilen Sie den Originaldatensatz nach dem Zufallsprinzip in einen Trainingssatz und einen Überprüfungssatz auf. Teilen Sie die Daten beispielsweise entsprechend dem Verhältnis 7:3 in zwei Teile auf. 70 % der Stichproben werden zum Trainieren des Modells verwendet, 30 % der Proben werden zur Modellverifizierung verwendet. Wie unten gezeigt.
1.2 Nachteile der einfachen Verifizierung
Die Daten werden nur einmal verwendet;
Die anhand des Validierungssatzes berechneten Bewertungsmetriken weisen eine starke Beziehung zur ursprünglichen Gruppierung auf.
Bei Zeitreihensequenzen ist es zum Speichern von Zeitreiheninformationen oft nicht möglich, die Reihenfolge der Daten zu stören und die Daten zufällig abzufangen. Dies bringt Probleme mit sich. Beispielsweise werden Frühlings-, Sommer- und Herbstdaten immer für das Training verwendet Für die Tests werden Winterdaten verwendet. Dies ist offensichtlich problematisch und kann nicht toleriert werden.
2. K-fache Kreuzvalidierung
Um die Mängel der einfachen Kreuzvalidierung zu beheben, wird die K-fache Kreuzvalidierung eingeführt, die nicht nur das Problem unzureichender Datenmenge im Datensatz, sondern auch das Problem der Parameteroptimierung lösen kann. .
2.1 Die Idee der K-fachen Kreuzvalidierung
Teilen Sie zunächst alle Stichproben in k Stichprobenteilmengen gleicher Größe auf.
Die k Teilmengen werden nacheinander durchlaufen, und jedes Mal wird die aktuelle Teilmenge als Verifizierungssatz und alle verbleibenden Stichproben als Trainingssatz zum Trainieren und Bewerten des Modells verwendet.
Schließlich wird der Durchschnitt von k Bewertungsindikatoren als endgültiger Bewertungsindikator verwendet. In tatsächlichen Experimenten beträgt k normalerweise 10, wie in der folgenden Abbildung dargestellt.
2.2 Kleine Details
Bei der K-Falten-Kreuzvalidierung gibt es ein solches Detail, dass das Training der nächsten Falte nicht auf der vorherigen Falte basiert, d. h. die Modellparameter müssen für jede neue Falte neu initialisiert werden.
Die K-fache Kreuzvalidierung kann nur zur Verifizierung verwendet werden, sodass ihre Ergebnisse nicht als Grundlage zum Speichern und Beurteilen von Modellparametern verwendet werden können. Sie kann jedoch verwendet werden, um die Kombination von Superparametern zu bestimmen und die Modellstruktur anzupassen Initialisieren Sie das Modell für das Training neu. Bessere Modellparameter.
Bei Daten mit sequentiellen Informationen muss geprüft werden, ob zwischen verschiedenen Faltungen ein erheblicher Leistungsunterschied besteht.
2.3 Nachteile der K-fachen Kreuzvalidierung
Da die Gesamtzahl der Epochen, die für die K-fache Kreuzvalidierung zur Durchführung einer Trainingssitzung erforderlich sind, das Produkt aus der Anzahl der Trainingsepochen für jede Falte und der Gesamtzahl der Falten (K) ist, werden die Trainingskosten verdoppelt.