Datenvorverarbeitung – Verarbeitung fehlender Werte

In wilden Daten fehlen oft Werte, was leicht zu verstehen ist. Wir füllen Formulare oft in Eile aus, und einige Inhalte können fehlen. Wenn beispielsweise in der Spalte „Geschlecht“ ein Leerzeichen gelassen wird, fehlt ein Wert.

Um eine Datenbereinigung durchzuführen, müssen diese fehlenden Werte behoben werden. Was ist also das Standardverarbeitungsverfahren, wenn fehlende Werte festgestellt werden? Auf diese Frage gibt es keine Antwort. Die Verarbeitung fehlender Daten ist eine Kunst. Denken Sie darüber nach. In dem Formular, das Sie eingereicht haben, fehlte das Geschlechtselement. Als das Formular an mich weitergeleitet wurde, habe ich es mir angesehen. Sie haben ein Element übersehen, Aber ich habe dich noch nie zuvor getroffen. Es ist nicht angebracht, das Feld leer zu lassen, und es scheint unangemessen, männlich und weiblich einzutragen.

Generell gibt es vier Verarbeitungsmethoden:

1. Unsere Familie hat eine minenartige Behandlungsmethode, wirf sie weg

Solange in einer bestimmten Probe ein Wert fehlt, wird die Probe direkt verworfen. Aus den Augen, aus dem Kopf, wird es keine Probleme mehr geben. Diese Methode hat herausragende Vorteile, ist einfach und grob, spart Zeit und Mühe und das bekannte Datenverarbeitungstool Pandas stellt speziell die Dropna-Methode bereit. Aber auch die Mängel sind sehr deutlich: Ein Teil der wertvollen Probendaten wird verschwendet, weil er mit Schmutz befleckt ist.

Im Allgemeinen kann diese Methode in Betracht gezogen werden, wenn die Datenqualität relativ gut ist und der Anteil fehlender Werte gering ist.

2. Die Verarbeitungsmethode des dünnen Schlammtyps, die den Durchschnittswert ausfüllt

Wenn Sie Proben mit fehlenden Werten nicht verwerfen und Daten einspeisen möchten, müssen Sie sie neu zuweisen. Wenn dieses Verhalten online implementiert wird, bedeutet dies ein wenig „Datenfälschung“. Sobald die Zuweisung eine gewisse Verzerrung aufweist, wirkt sich dies auf die Daten aus Gesamtdatenverteilung der gesamten Stichprobe und wird schließlich zu einer gewissen Abweichung in der Vorhersage des maschinellen Lernmodells führen.

Was sollen wir dann tun? Und geben Sie den Mittelwert ein. Da der Mittelwert keinen Einfluss auf die Gesamtsituation hat, wird auch das Problem fehlender Werte gelöst. Aus statistischer Sicht können Sie neben dem Mittelwert auch den Modus und den Median eingeben. Die Auswirkungen sind leicht unterschiedlich, der Ausgangspunkt ist jedoch derselbe.

3. Technische Verarbeitungsmethode, Werte eintragen

Diese Verarbeitungsmethode ist relativ einfach. Wenn beispielsweise der Wert der vorherigen Stichprobe 7 und der Wert der zweiten Stichprobe 9 beträgt und in der mittleren Stichprobe ein Wert fehlt, was sollte dann ausgefüllt werden? Geben Sie natürlich eine 8 ein. Es gibt viele Möglichkeiten, dies zu tun.

heiße Kartenfüllung

Die Hot-Card-Füllmethode besteht darin, in den vollständigen Daten ein Objekt zu finden, das ihm am ähnlichsten ist, und es dann mit dem Wert dieses ähnlichen Objekts zu füllen. Normalerweise wird mehr als ein ähnliches Objekt gefunden. Es gibt kein bestes unter allen passenden Objekten, sondern eines wird zufällig als Füllwert ausgewählt. Der Schlüssel zu diesem Problem liegt darin, dass verschiedene Fragen möglicherweise unterschiedliche Standards zur Bestimmung der Ähnlichkeit verwenden und wie dieser Bestimmungsstandard formuliert werden kann. Diese Methode ist konzeptionell einfach und nutzt die Beziehung zwischen Daten, um Nullwerte zu schätzen. Der Nachteil besteht jedoch darin, dass es schwierig ist, Ähnlichkeitsstandards zu definieren und es viele subjektive Faktoren gibt.

K-bedeutet

Unter Verwendung der Clustering-Methode des unbeaufsichtigten maschinellen Lernens werden alle Stichproben geclustert und durch die K-Means-Clustering-Methode geteilt, und dann werden die fehlenden Werte in jeder Klasse durch den Mittelwert der geteilten Kategorien aufgefüllt. Das Wesentliche besteht darin, fehlende Werte durch das Finden von Ähnlichkeiten zu ergänzen. Im Allgemeinen werden die K-Proben, die der Probe mit fehlenden Daten am nächsten liegen, zunächst auf der Grundlage der euklidischen Distanz- oder Korrelationsanalyse bestimmt und die K-Werte gewichtet und gemittelt, um die fehlenden Daten der Probe abzuschätzen.

Passen Sie fehlende Werte an

Bei der Anpassung werden andere Variablen als Eingabe für das Modell verwendet, um fehlende Variablen vorherzusagen. Dies entspricht unserer normalen Modellierungsmethode, mit der Ausnahme, dass die Zielvariable zu einem fehlenden Wert wird.

Beachten Sie, dass die vorhergesagten Ergebnisse bedeutungslos sind, wenn andere Merkmalsvariablen nicht mit der fehlenden Variablen in Zusammenhang stehen. Wenn das Vorhersageergebnis ziemlich genau ist, bedeutet dies, dass diese Variable überhaupt nicht vorhergesagt werden muss, da wiederholte Informationen mit der Merkmalsvariablen vorliegen müssen. Unter normalen Umständen liegt der beste Effekt zwischen den beiden. Wenn die Autokorrelation eingeführt wird, nachdem fehlende Werte zwangsweise eingefügt wurden, führt dies zu Hindernissen für die nachfolgende Analyse.

4. Unvorhersehbare Verarbeitungsmethoden und Modellvorhersagen

Es gibt viele Möglichkeiten, Modelle zur Vorhersage fehlender Variablen zu verwenden. Hier werden nur einige kurz vorgestellt.

Regressionsvorhersage

Basierend auf dem vollständigen Datensatz wird eine Regressionsgleichung (Modell) erstellt. Bei Objekten, die Nullwerte enthalten, werden die bekannten Attributwerte in die Gleichung eingesetzt, um die unbekannten Attributwerte zu schätzen, und die geschätzten Werte werden zum Ausfüllen der Objekte verwendet. Verzerrte Schätzungen entstehen, wenn Variablen nicht linear zusammenhängen oder wenn Prädiktoren stark korrelieren.

Maximum-Likelihood-Schätzung

Unter der Bedingung, dass der fehlende Typ zufällig fehlt und vorausgesetzt, dass das Modell für die gesamte Stichprobe korrekt ist, können die unbekannten Parameter mit maximaler Wahrscheinlichkeit durch die Randverteilung der beobachteten Daten geschätzt werden (Little und Rubin). Diese Methode wird auch als Maximum-Likelihood-Schätzung bezeichnet, die fehlende Werte ignoriert. Die in der Praxis häufig verwendete Berechnungsmethode für die Maximum-Likelihood-Parameterschätzung ist die Erwartungsmaximierung (EM). Diese Methode ist attraktiver als das Löschen von Fällen und die Einzelwertinterpolation und hat eine wichtige Voraussetzung: Sie ist für große Stichproben geeignet. Die Anzahl gültiger Stichproben reicht aus, um sicherzustellen, dass die ML-Schätzungen asymptotisch erwartungstreu sind und einer Normalverteilung folgen. Diese Methode kann jedoch in lokale Extreme verfallen, die Konvergenzgeschwindigkeit ist nicht sehr hoch, die Berechnung ist komplex und sie ist auf lineare Modelle beschränkt.

Mehrfachimputation

Die Idee der Multi-Value-Interpolation stammt aus der Bayes'schen Schätzung, die davon ausgeht, dass der zu interpolierende Wert zufällig ist und sein Wert aus dem beobachteten Wert stammt. In der konkreten Praxis wird der zu interpolierende Wert normalerweise geschätzt und dann werden verschiedene Rauschen hinzugefügt, um mehrere Sätze optionaler Interpolationswerte zu bilden. Wählen Sie den am besten geeigneten Interpolationswert basierend auf einer bestimmten Auswahlbasis aus.

Wir sehen, dass es sich bei den oben vorgeschlagenen Anpassungs- und Ersetzungsmethoden ausschließlich um Einzelinterpolationsmethoden handelt und die Mehrfachimputation die Mängel der Einzelimputation ausgleicht. Es wird nicht versucht, jeden fehlenden Wert durch simulierte Werte zu schätzen, sondern eine Zufallsstichprobe fehlender Datenwerte vorgeschlagen ​​(Diese Stichproben können eine Kombination verschiedener Modellanpassungsergebnisse sein). Die Implementierung dieses Verfahrens spiegelt die Unsicherheit aufgrund fehlender Werte angemessen wider und macht die Statistiken valide. Die multiple Imputation kann in die folgenden 3 Schritte unterteilt werden:

  1. Erstellen Sie für jeden fehlenden Wert einen Satz möglicher unterstellter Werte, die die Unsicherheit des Non-Response-Modells widerspiegeln.

  2. Jeder unterstellte Datensatz wurde mithilfe der statistischen Methoden, die für den gesamten Datensatz verwendet wurden, statistisch analysiert.

  3. Die Ergebnisse jedes unterstellten Datensatzes werden gemäß der Bewertungsfunktion ausgewählt, um den endgültigen interpolierten Wert zu erzeugen.

Abhängig vom Mechanismus, dem Muster und dem Variablentyp der Daten fehlen Regression, Predictive Mean Matching (PMM), Propensity Score (PS), logistische Regression, Diskriminanzanalyse und Markov Chain Monte Carlo (Markov Chain Monte Carlo, MCMC) und andere Methoden werden zum Füllen verwendet.

Angenommen, ein Datensatz enthält drei Variablen Y1, Y2 und Y3 und ihre gemeinsame Verteilung ist eine Normalverteilung. Dieser Datensatz wird in drei Gruppen verarbeitet. Gruppe A behält die Originaldaten bei, Gruppe B fehlt nur Y3 und Gruppe In C fehlen Y1 und Y2. Während der Mehrwertinterpolation wird für Gruppe A keine Verarbeitung durchgeführt, für Gruppe B wird ein Satz geschätzter Werte von Y3 generiert (Regression von Y3 auf Y1, Y2) und ein Satz gepaarter Schätzungen von Y1 und Y2 wird für Gruppe C generiert. Wert (Regression von Y1 und Y2 auf Y3).

Bei Verwendung der Mehrwertinterpolation wird Gruppe A nicht verarbeitet und vollständige Stichproben der Gruppen B und C werden zufällig ausgewählt, um m Gruppen zu bilden (m ist die optionale m Gruppe von Interpolationswerten). Die Anzahl der Fälle in jeder Gruppe beträgt so lange wie möglich. Es reicht aus, Parameter effizient zu schätzen. Schätzen Sie die Verteilung der Attribute mit fehlenden Werten und generieren Sie dann basierend auf diesen m Gruppen von Beobachtungen m Gruppen geschätzter Parameterwerte für diese m Gruppen von Stichproben und geben Sie entsprechende Vorhersagen. Die derzeit verwendete Schätzmethode ist maximal Ähnlichkeit. Zufällige Methode, der spezifische Implementierungsalgorithmus im Computer ist die Erwartungsmaximierungsmethode (EM). Für Gruppe B wird eine Gruppe von Y3-Werten geschätzt. Für Gruppe C wird eine Gruppe von (Y1, Y2) unter der Voraussetzung geschätzt, dass die gemeinsame Verteilung von Y1, Y2, Y3 eine Normalverteilung ist.

Im obigen Beispiel wird angenommen, dass die gemeinsame Verteilung von Y1, Y2 und Y3 eine Normalverteilung ist. Diese Annahme ist künstlich, aber es wurde bestätigt (Graham und Schafer 1999), dass nicht normalverteilte Variablen unter dieser Annahme immer noch geschätzt werden können, um Ergebnisse zu erzielen, die sehr nahe am wahren Wert liegen.

Hinweis: Die Verwendung der Mehrfachimputation erfordert, dass die fehlenden Datenwerte zufällig fehlen. Im Allgemeinen beträgt die Anzahl der Wiederholungen 20-50, was sehr genau ist, aber die Berechnung ist auch sehr kompliziert und erfordert viele Berechnungen.

Guess you like

Origin blog.csdn.net/weixin_45277161/article/details/132969668