Verwenden Sie die SMOTEN-Methode von imbalanced-learn für das Daten-Upsampling, um Ungleichgewichtsprobleme zu lösen

Beim maschinellen Lernen ist die Anzahl der Trainingsproben einiger Kategorien aufgrund des Ungleichgewichts des Datensatzes gering. Um die Generalisierungsfähigkeit und den Vorhersageeffekt des Modells zu verbessern, muss der Datensatz verarbeitet werden. Eine Möglichkeit, damit umzugehen, ist das Upsampling, das darin besteht, die Anzahl der Stichproben aus Minderheitenklassen zu erhöhen. imbalanced-learn ist eine Python-Bibliothek, die eine Reihe von Methoden zum Umgang mit unausgeglichenen Daten bereitstellt, einschließlich der SMOTEN-Methode. In diesem Artikel wird erläutert, wie Sie die SMOTEN-Methode des unausgeglichenen Lernens verwenden, um ein Upsampling der Daten durchzuführen.

Vorbereitung

Zuerst müssen Sie die imbalanced-learn-Bibliothek installieren, die mit dem pip-Paketmanager installiert werden kann:

pip install imbalanced-learn

Dann müssen wir den Datensatz vorbereiten. Hier nehmen wir als Beispiel den Iris-Datensatz, der mit sklearn geliefert wird. Der Datensatz enthält 150 Proben und 3 Kategorien (Setosa, Versicolor und Virginica). Unter diesen enthält die Setosa-Kategorie nur 50 Proben, was ein typischer unausgeglichener Datensatz ist .

from sklearn.datasets import load_iris
import pandas as pd

data = lo

Verwenden Sie die SMOTEN-Methode von imbalanced-learn für das Daten-Upsampling, um Ungleichgewichtsprobleme zu lösen

Guess you like