[Anmerkungen] Praktische Statistiken für Datenwissenschaftler

explorative Datenanalyse

Wie bei jedem datenbasierten Projekt besteht der wichtigste erste Schritt darin, sich die Daten anzusehen, was die Schlüsselidee hinter der explorativen Datenanalyse ist. Durch die Zusammenfassung und Visualisierung von Daten können wir wertvolle Einblicke und ein Verständnis für unsere Projekte gewinnen.

Konzept

Die Zusammensetzung strukturierter Daten

Strukturierte Daten: numerische Daten (kontinuierliche Daten\diskrete Daten), kategoriale Daten (binäre Daten\geordnete Daten)

  • Kontinuierliche Daten : Die Daten können innerhalb eines Intervalls jeden beliebigen Wert annehmen. (Intervalldaten, Gleitkommadaten, numerische Daten)
  • Diskrete Daten : Daten können nur ganze Zahlen sein, z. B. Zählungen. (Ganzzahldaten, Zähldaten)
  • Kategoriale Daten : Daten, die nur Werte aus einem bestimmten Satz annehmen können und eine Reihe möglicher Klassifizierungen darstellen. (Aufzählungsdaten, Aufzählungsdaten, Faktordaten, Nominaldaten, Mehrzweigdaten)
  • Binärdaten : Eine spezielle Art kategorialer Daten, bei denen der Datenwert nur einen von zwei Werten annehmen kann (z. B. 0 oder 1, Wahr oder Falsch). (Binärdaten, logische Daten, Indikatordaten, boolesche Daten)
  • Ordinaldaten : Kategoriale Daten mit klarer Reihenfolge. (geordnete Faktordaten)

Die Rolle der Datenklassifizierung : Die Datenklassifizierung gibt an, wie die Daten von der Software verarbeitet werden sollen.

Rechteckige Daten

Rechteckige Datenobjekte sind typische Referenzstrukturen in der datenwissenschaftlichen Analyse. Zu rechteckigen Datenobjekten gehören Tabellenkalkulationen, Datenbanktabellen usw.

Rechteckige Daten sind im Wesentlichen eine zweidimensionale Matrix, in der Zeilen Datensätze (Fälle) und Spalten Merkmale (Variablen) darstellen.

  • Datenrahmen : Rechteckige Daten wie Tabellenkalkulationen sind eine grundlegende Datenstruktur in Statistiken und Modellen für maschinelles Lernen.
  • Datenfunktionen : Eine Spalte in einer Datentabelle wird normalerweise als Funktion bezeichnet. (Attribut, Eingabe, Prädiktor, Variable)
  • Ergebnisse : Bei vielen Data-Science-Projekten geht es um die Vorhersage von Ergebnissen, wobei die häufigsten Ergebnisse „Ja“ oder „Nein“ sind (z. B. „Ist die Auktion ein Gebot?“ in Tabelle 1-1). Manchmal werden Merkmale in Experimenten oder Studien verwendet, um Ergebnisse vorherzusagen. (abhängige Variable, Antwort, Ziel, Ausgabe)
  • Datensatz : Eine Zeile in einer Datentabelle wird normalerweise als Datensatz bezeichnet. (Fall, Beispiel, Beispiel, Beobachtung, Muster, Beispiel)

Neben rechteckigen Daten gibt es auch Zeitreihendaten, räumliche Daten und grafische Daten.

Standortschätzung

Der typische Wert ist eine Schätzung, wo die Daten am häufigsten vorkommen, also die zentrale Tendenz der Daten.

  • Mittelwert : Die Summe aller Datenwerte geteilt durch die Anzahl der Werte. (Durchschnittswert)
  • Gewichteter Mittelwert : Jeder Wert wird mit dem entsprechenden Gewichtswert multipliziert, dann summiert und dann durch die Summe der Gewichte dividiert. (Gewichteter Durchschnitt)
  • Median : Ein Wert, bei dem die Hälfte der Daten im Datensatz darüber und darunter liegt. (50. Perzentil)
  • Gewichteter Median : Die Summe der Hälfte der Gewichte im sortierten Datensatz liegt über und unter diesem Wert.
  • Tail-Trimmed-Mittelwert : Nach dem Entfernen einer bestimmten Anzahl von Extremwerten aus dem Datensatz wird anschließend der Mittelwert berechnet. (abgeschnittener Mittelwert)
  • Robust : Unempfindlich gegenüber Extremwerten. (Widerstand)
  • Ausreißer : Ein Datenwert, der sich deutlich von den meisten Datenwerten unterscheidet. (extrem)

Variabilitätsschätzung

Die Position ist nur eine Dimension der zusammenfassenden Merkmale. Die andere Dimension ist die Variabilität, auch Streuung genannt, die misst, ob Datenwerte eng gebündelt oder verteilt sind. Variabilität ist ein Kernkonzept der Statistik. In der Statistik geht es darum, wie man Variabilität misst, wie man Variabilität reduziert, wie man Zufälligkeiten bei echter Variabilität erkennt, wie man verschiedene Quellen echter Variabilität identifiziert und wie man Variabilität erkennt, wenn Variabilität vorhanden ist. Treffen Sie Entscheidungen unter Umstände.

  • Bias : Die direkte Differenz zwischen einem beobachteten Wert und einem geschätzten Wert für einen Standort. (Fehler, Rest)
  • Varianz : Für n Datenwerte ist die Varianz die Summe der quadrierten Abweichungen vom Mittelwert geteilt durch n-1. (mittlere quadratische Fehler)
  • Standardabweichung : die Quadratwurzel der Varianz. (L2-Norm, euklidische Norm)
  • Mittlere absolute Abweichung : Berechnen Sie den Mittelwert des Absolutwerts der Abweichung zwischen dem Datenwert und dem Mittelwert. (L1-Norm, Manhattan-Norm)
  • Mediane absolute Abweichung : Die mittlere absolute Abweichung zwischen Datenwerten und dem Median.
  • Bereich : Die Differenz zwischen den Maximal- und Minimalwerten im Datensatz.
  • Ordinalstatistik : Ein Maß, das auf Datenwerten basiert, die vom größten zum kleinsten geordnet sind. (Rang)
  • Perzentil : Gibt an, dass in einem Datensatz der Wert von P % kleiner oder gleich dem P-Perzentil ist und der Wert von (100-P) % größer oder gleich dem P-Perzentil ist. (Quartil)
  • Interquartilbereich : Der Unterschied zwischen dem 75. Perzentil und dem 25. Perzentil. (Interquartilbereich)
Freiheitsgrade

Es gibt keinen großen Unterschied in den Berechnungsergebnissen, unabhängig davon, ob die Freiheitsgrade n oder n-1 sind. Dies liegt daran, dass n normalerweise immer groß genug ist, dass das Ergebnis keinen großen Unterschied macht, wenn es durch n oder durch n-1 geteilt wird.

Wenn der intuitive Teiler n in der Varianzformel verwendet wird, werden der wahre Wert der Varianz und die Standardabweichung der Grundgesamtheit unterschätzt. Dies wird als voreingenommene Schätzung bezeichnet. Wenn Sie jedoch durch n−1 statt durch n dividieren, ist die Standardabweichung eine unvoreingenommene Schätzung.

Eine vollständige Erklärung dafür, warum die Verwendung von n zu verzerrten Schätzungen führen kann, beinhaltet das Konzept der Freiheitsgrade. Freiheitsgrade berücksichtigen die Anzahl der Einschränkungen bei der Berechnung des Schätzers. In diesem Fall sind die Freiheitsgrade n−1, da es eine Einschränkung gibt: Die Standardabweichung beruht auf der Berechnung des Stichprobenmittelwerts. Bei vielen Problemen müssen sich Datenwissenschaftler keine Gedanken über Freiheitsgrade machen. Aber in manchen Fällen ist Freiheit wichtig

Entdecken Sie die Datenverteilung

Verschiedene Schätzer beschreiben den Ort oder die Variabilität der Daten, indem sie die Daten in einem einzigen Wert zusammenfassen. Diese Schätzer können verwendet werden, um die Gesamtverteilung der Daten zu untersuchen.

  • Boxplot : Eine von Tukey vorgeschlagene Zeichnung als schnelle Möglichkeit, die Verteilung von Daten zu visualisieren. (Boxplot, Box- und Whiskerplot)
  • Häufigkeitstabelle : Platzieren Sie die Zählungen numerischer Daten in einer Reihe von Intervallen (Intervallen).
  • Histogramm : Ein Diagramm einer Häufigkeitstabelle, in der die x-Achse den Bereich und die y-Achse die Anzahl (oder den Anteil) darstellt.
  • Dichtediagramm : Eine geglättete Darstellung eines Histogramms, normalerweise basierend auf einer Art Kerndichteschätzung.

Verteilung binärer und kategorialer Daten

Mithilfe grundlegender Proportionen oder Prozentsätze können wir die Situation kategorialer Daten verstehen

  • Modus : Die Kategorie oder der Wert, der in einem Datensatz am häufigsten vorkommt.
  • Erwarteter Wert : Wenn einer Kategorie ein numerischer Wert zugeordnet werden kann, kann ein Durchschnitt basierend auf der Wahrscheinlichkeit des Auftretens der Kategorie berechnet werden.
  • Balkendiagramm : In einem Diagramm stellen Balken die Häufigkeit oder den Anteil jeder Kategorie dar.
  • Kreisdiagramm : In einem Diagramm stellt ein Kreisstück die Häufigkeit oder den Anteil jeder Kategorie dar.

Korrelation

Ob in der Datenwissenschaft oder in der Forschung: Die explorative Datenanalyse in vielen Modellierungsprojekten untersucht Korrelationen zwischen Prädiktoren sowie zwischen Prädiktoren und Zielvariablen.

  • Korrelationskoeffizient : Ein Maß für den Grad der Korrelation zwischen numerischen Variablen im Bereich von –1 bis +1.
  • Korrelationsmatrix : Zeigt Variablen in einer Tabelle nach Zeilen und Spalten an. Der Wert jeder Zelle in der Tabelle ist die Korrelation zwischen den entsprechenden Variablen.
  • Streudiagramm : In einem Diagramm zeigt die x-Achse den Wert einer Variablen und die y-Achse den Wert einer anderen Variablen.

Zwei oder mehr Variablen

Bei der Berechnung des obigen Schätzers betrachten wir jeweils nur eine Variable, was als univariate Analyse bezeichnet wird . Die Korrelationsanalyse ist eine wichtige Methode zum Vergleich der Beziehung zwischen zwei Variablen, die bivariate Analyse . Schätzer und Diagramme mit zwei oder mehr Variablen werden als multivariate Analyse bezeichnet .

  • Kontingenztabelle : Eine Tabelle, die zwei oder mehr kategoriale Variablen zählt.
  • Sechseckdiagramm : Ein Diagramm für zwei numerische Variablen, in dem Sechsecke zur Darstellung von Gruppenintervallen von Datensätzen verwendet werden.
  • Äquipotentialdiagramm : Ein Diagramm ähnlich einer topografischen Karte, das die Dichte zweier numerischer Variablen zeigt.
  • Violinplot : Ein Plot ähnlich einem Boxplot, der jedoch Dichteschätzungen zeigt.

Diagrammtypen, die zum Vergleich zweier Variablen verwendet werden, wie z. B. Streudiagramme, Sechseckdiagramme und Boxdiagramme, können durch das Konzept der Konditionierung auf mehrere Variablen erweitert werden.

Daten- und Stichprobenverteilungen

Die linke Seite der Abbildung stellt die Bevölkerung dar und Statistiken gehen davon aus, dass die Bevölkerung einer zugrunde liegenden unbekannten Verteilung folgt. Die rechte Seite der Abbildung stellt die Stichprobendaten und ihre empirische Verteilung dar, die die einzige ist, die uns zur Verfügung steht. Um das Diagramm rechts basierend auf dem Diagramm links zu erhalten, müssen wir eine Stichprobe durchführen, die durch einen Pfeil im Diagramm dargestellt wird. Die traditionelle Statistik konzentriert sich hauptsächlich auf den linken Teil des Bildes, das heißt darauf, wie man einige auf starken Annahmen basierende Theorien auf die Bevölkerung anwendet. Die moderne Statistik hat den Fokus auf die rechte Seite des Diagramms verlagert, sodass keine Annahmen mehr getroffen werden müssen.

Konzept

Zufallsstichprobe und Stichprobenverzerrung

Eine Stichprobe ist eine Teilmenge eines großen Datensatzes, den Statistiker oft als Grundgesamtheit bezeichnen .

  • Beispiel : Eine Teilmenge eines großen Datensatzes.
  • Bevölkerung : Ein großer Datensatz oder ein konzipierter Datensatz.
  • N (oder n) : Im Allgemeinen repräsentiert N die Größe der Grundgesamtheit und n die Größe der Stichprobe.
  • Zufallsstichprobe : zufällige Auswahl von Elementen aus einer Grundgesamtheit in einer Stichprobe.
  • Stratifizierte Stichprobe : Schichtung der Bevölkerung und Durchführung einer Zufallsstichprobe in jeder Schicht.
  • Einfache Zufallsstichprobe : Eine durch Zufallsstichprobe ohne Schichtung der Grundgesamtheit gewonnene Stichprobe.
  • Stichprobenverzerrung : Die Stichprobe liefert eine falsche Interpretation der Grundgesamtheit.

Die Stichprobenziehung kann mit Ersatz erfolgen, d. h. die extrahierten Beobachtungen können nach jeder Ziehung wieder in die Grundgesamtheit aufgenommen und bei nachfolgenden Ziehungen wieder ausgewählt werden. Die Stichprobenziehung kann auch ersatzlos erfolgen, d. h. eine einmal ausgeloste Beobachtung nimmt nicht mehr an der Folgeauslosung teil.

In der Statistik umfasst die Datenqualität auch das Konzept der Repräsentativität der Stichprobe.

Abweichung

Statistische Verzerrung ist ein systematischer Messfehler oder Stichprobenfehler, der während des Mess- oder Stichprobenprozesses auftritt. Wir sollten strikt zwischen Fehlern, die durch zufällige Auswahl verursacht werden, und Fehlern, die durch Voreingenommenheit verursacht werden, unterscheiden.

Auswahlverzerrung

Unter Selektionsbias versteht man die selektive Auswahl von Daten in einer Weise, die zu irreführenden oder kurzlebigen Schlussfolgerungen führen kann. Auswahlverzerrungen können beabsichtigt oder unbewusst sein.

  • Datenschnüffeln : Umfangreiche Suchen in den Daten durchführen, um interessante Ergebnisse zu erhalten.
  • Sucheffekt im großen Maßstab : Verzerrung oder Nichtreproduzierbarkeit durch wiederholte Datenmodellierung oder Verwendung einer großen Anzahl von Prädiktorvariablen zur Modellierung von Daten.

Die mittlere Regression bezieht sich auf ein Phänomen, das auftritt, wenn dieselbe Variable kontinuierlich gemessen wird, d. h. nach extremen Beobachtungen gibt es Beobachtungen, die eher in der Mitte liegen. Extremwerten besondere Aufmerksamkeit und Bedeutung zuzuschreiben, kann zu einer Art Auswahlverzerrung führen.

Selbsthilfemethode

Eine einfache, aber effektive Möglichkeit, die Stichprobenverteilung einer Statistik oder eines Modellparameters abzuschätzen, besteht darin, mehr Stichproben mit Ersetzung aus der Stichprobe selbst zu ziehen und die Statistik oder das Modell für jede Neustichprobe neu zu berechnen. Dieser Vorgang wird Selbsthilfe genannt. Die Bootstrap-Methode erfordert nicht die Annahme, dass die Daten oder Stichprobenstatistiken normalverteilt sind.

  • Bootstrap-Probe : Eine Probe, die durch Extrahieren und Ersetzen aus dem Beobachtungsdatensatz erhalten wird.
  • Resampling : Der Prozess des wiederholten Ziehens von Stichproben aus beobachteten Daten, einschließlich Bootstrapping und Permutation (Shuffling).

Bootstrapping kann kleine Stichprobengrößen nicht ausgleichen. Es werden weder neue Daten erstellt, noch werden Lücken in bestehenden Datensätzen geschlossen. Es sagt uns nur das Verhalten einer großen Anzahl zusätzlicher Stichproben, wenn sie aus einer Grundgesamtheit wie der ursprünglichen Stichprobe gezogen werden.

Der Begriff Resampling wird manchmal mit Bootstrapping gleichgesetzt. In mehr Fällen beinhaltet das Resampling auch einen Austauschvorgang. Der Permutationsprozess kombiniert mehrere Stichproben, und die Stichprobe kann ohne Ersatz erfolgen. In jedem Fall bezieht sich die Bootstrapping-Methode jedoch auf das Abtasten des Beobachtungsdatensatzes und Ersetzen.

Konfidenzintervall

Um den potenziellen Fehler in einem Stichprobenschätzer zu verstehen, ist neben der Verwendung der zuvor eingeführten Häufigkeitstabellen, Histogramme, Boxplots und Standardfehler eine weitere Methode das Konfidenzintervall.

  • Konfidenzniveau : Konfidenzintervall ausgedrückt als Prozentsatz. Das Intervall wird auf die gleiche Weise aus derselben Grundgesamtheit erstellt und kann die Statistik enthalten, an der wir interessiert sind.
  • Intervallendpunkte : Die beiden Enden des Konfidenzintervalls.

Nur wenige Menschen vertrauen zu sehr auf einen Schätzer, der als einzelner numerischer Wert, einer Punktschätzung, dargestellt wird . Um dieses allgemeine Problem zu lösen, können wir einen Bereich anstelle eines einzelnen Werts verwenden, um den Schätzer auszudrücken. Das Prinzip der statistischen Stichprobenziehung ist die Grundlage für die Realisierung von Konfidenzintervallen.

Stichprobenverteilung

Die Stichprobenverteilung von Statistiken bezieht sich auf die Verteilung einiger Stichprobenstatistiken, wenn mehrere Stichproben aus derselben Grundgesamtheit gezogen werden. Die klassische Statistik konzentriert sich darauf, wie man aus einer kleinen Stichprobe Informationen über eine größere Bevölkerung ableitet.

  • Stichprobenstatistik : Einige Messwerte, die durch die Berechnung von Stichproben aus einer großen Population erhalten werden.
  • Datenverteilung : Die Häufigkeitsverteilung einzelner Werte in einem Datensatz.
  • Stichprobenverteilung : Die Häufigkeitsverteilung einer Stichprobenstatistik auf mehrere Stichproben oder Neustichproben.
  • Zentraler Grenzwertsatz : Mit zunehmender Stichprobengröße neigt die Stichprobenverteilung dazu, eine Normalverteilung zu sein.
  • Standardfehler : Die Variabilität (Standardabweichung) einer Stichprobenstatistik über mehrere Stichproben hinweg. Nicht zu verwechseln mit der Standardabweichung, die sich auf die Variabilität zwischen einzelnen Datenwerten bezieht.

Da der Schätzer oder das Modell auf einer Stichprobe basiert, kann es zu Fehlern oder Unterschieden aufgrund unterschiedlicher Stichprobenziehungen kommen. Wir müssen verstehen, was dieser Unterschied eigentlich ist, d. h. unser Hauptanliegen ist die Stichprobenvariabilität.

Normalverteilung

Die glockenförmige Normalverteilung ist ein ikonisches Konzept in der traditionellen Statistik. Da die Verteilung von Stichprobenstatistiken normalerweise die Form einer Normalverteilung annimmt, ist die Normalverteilung tatsächlich zu einem leistungsstarken Werkzeug zur Ableitung mathematischer Formeln für die Näherungsverteilung von Stichprobenstatistiken geworden.

  • Fehler : Die Differenz zwischen einem Datenpunkt und dem vorhergesagten Wert oder Mittelwert.
  • Standardisierung : Datenwerte minus Mittelwert und dividiert durch die Standardabweichung.
  • Z-Score : Das Ergebnis der Normalisierung eines einzelnen Datenpunkts.
  • Standardnormalverteilung : Eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1.
  • QQ-Diagramm : Ein visuelles Diagramm, das zeigt, wie nahe eine Stichprobenverteilung an einer Normalverteilung liegt. Das QQ-Diagramm sortiert die Z-Scores von niedrig nach hoch und stellt den Z-Score für jeden Wert auf der Y-Achse dar. Die Einheit der x-Achse ist das Quantil, das der Normalverteilung des Werterangs entspricht. Da die Daten normalisiert sind, entspricht die Anzahl der Einheiten der Anzahl der Standardabweichungen, um die die Datenwerte vom Mittelwert abweichen. Wenn die Datenpunkte ungefähr auf der Diagonalen liegen, kann die Stichprobenverteilung annähernd als normal angesehen werden.

Die Normalverteilung ergibt sich aus der Tatsache, dass viele Statistiken in der Stichprobenverteilung normalverteilt sind. Dennoch sollte die Normalitätsannahme nur als letztes Mittel verwendet werden, wenn empirische Wahrscheinlichkeitsverteilungen oder Bootstrap-Verteilungen nicht verfügbar sind.

Bei der Standardnormalverteilung sind die Einheiten der x-Achse Standardabweichungen vom Mittelwert. Um die Daten mit einer Standardnormalverteilung zu vergleichen, müssen wir den Mittelwert von den Datenwerten subtrahieren und dann durch die Standardabweichung dividieren. Dieser Vorgang wird Normalisierung oder Standardisierung genannt .

Long-Tail-Verteilung

  • Schwanz : Der lange und schmale Teil einer Häufigkeitsverteilung, in dem relativ extreme Werte sehr selten vorkommen.
  • Schiefe : Ein Ende einer Verteilung ist länger als das andere.

Studentische t-Verteilung

Die T-Verteilung hat eine normale Verteilungsform, ist jedoch etwas dicker in der Glockenform und hat etwas längere Enden. Die t-Verteilung wird häufig zur Beschreibung der Verteilung von Stichprobenstatistiken verwendet. Die Verteilung der Stichprobenmittelwerte hat normalerweise die Form einer t-Verteilung. Die t-Verteilung ist eine Familie von Verteilungen, und jedes Mitglied der Familie unterscheidet sich je nach Stichprobengröße. Je größer die Stichprobengröße, desto eher weist die t-Verteilung die Form einer Normalverteilung auf.

  • n : Gibt die Größe einer Stichprobe an.
  • Freiheitsgrade : Der Freiheitsgrad ist ein Parameter, der es ermöglicht, die t-Verteilung an unterschiedliche Stichprobengrößen, Statistiken und Gruppenzahlen anzupassen.

Die t-Verteilung wird oft als Student-t-Verteilung bezeichnet, da sie 1908 von Gossett in der Zeitschrift Biometrika unter dem Namen Student veröffentlicht wurde.

Binomialverteilung

  • Versuch : Ein Ereignis, das einen diskreten Wert ausgibt, beispielsweise ein Münzwurf.
  • Erfolg : Das Ergebnis eines Experiments ist das Ergebnis, an dem wir interessiert sind. (1 (relativ zu 0))
  • Binomial : hat zwei Ausgänge (ja/nein, 0/1, binär)
  • Binomialtest : Ein Test mit zwei Ausgängen. (Bernoulli-Test)
  • Binomialverteilung : Die Verteilung der Anzahl der Erfolge über eine Anzahl von Versuchen (z. B. x-mal). (Bernoulli-Verteilung)

Binomiale Ausgaben sind bei der Modellierung wichtig, da sie grundlegende Entscheidungssituationen darstellen, z. B. ob man kauft, ob man klickt, ob man lebt oder stirbt usw.

Ein Binomialtest ist ein Test mit zwei möglichen Ergebnissen, eines mit der Wahrscheinlichkeit p und das andere mit der Wahrscheinlichkeit 1−p.

Wenn n groß ist und p nicht nahe bei 0 (oder 1) liegt, kann die Binomialverteilung mithilfe der Normalverteilung angenähert werden.

Poisson-Verteilung und verwandte Verteilungen

Einige Prozesse generieren Ereignisse zufällig basierend auf einer bestimmten Gesamtrate. Die generierten Ereignisse können sich im Laufe der Zeit ausdehnen, etwa Besucher einer Website, ankommende Autos an einer Mautstelle usw.; sie können aber auch räumlich verstreut sein, etwa Mängel an Textilien pro Quadratmeter, Mängel pro hundert Tippfehler in der Reihe Code.

  • Lambda : Ereignisauftrittsrate pro Zeiteinheit oder Raumeinheit.
  • Poisson-Verteilung : die Häufigkeitsverteilung der Anzahl von Ereignissen pro Zeiteinheit oder Raumeinheit.
  • Exponentielle Verteilung : Eine Verteilung der Häufigkeiten von einem Ereignis zum nächsten über die Zeit oder Entfernung. Die Exponentialverteilung kann die Verteilung der Zeit zwischen Ereignissen modellieren, beispielsweise das Zeitintervall zwischen Website-Besuchen und das Zeitintervall zwischen der Ankunft von Autos an Mautstellen.
  • Weber-Verteilung : Eine verallgemeinerte Version der Exponentialverteilung. Die Weibull-Verteilung ermöglicht, dass die Geschwindigkeit, mit der Ereignisse auftreten, im Laufe der Zeit variiert.

Weber-Verteilung : Es handelt sich um eine Erweiterung der Exponentialverteilung, die eine Änderung der Ereignisrate durch Angabe des Formparameters β ermöglicht.

Statistische Experimente und Signifikanztests

Experimentelles Design ist der Grundstein der statistischen Praxis und Experimente werden in fast allen Forschungsbereichen eingesetzt. Das Ziel des experimentellen Designs besteht darin, Experimente zu entwerfen, die eine Hypothese bestätigen oder widerlegen.

Wenn Sie Konzepte wie statistische Signifikanz, t-Tests oder p-Werte sehen, geschieht dies normalerweise im Kontext des klassischen „Pipeline“-Szenarios für statistische Inferenzen, bei dem der statistische Inferenzprozess mit einer Hypothese beginnt, zum Beispiel „Medikament A.“ ist besser als die bestehenden Standardmedikamente“ dienen dazu, Hypothesen zu testen, und wir hoffen, dass die von uns konzipierten Experimente schlüssige Ergebnisse liefern. Während des Experiments werden Daten gesammelt und analysiert, um Schlussfolgerungen zu ziehen. Der Begriff Inferenz spiegelt die Absicht wider, experimentelle Ergebnisse, die aus einem begrenzten Datensatz gewonnen wurden, auf einen größeren Prozess oder eine größere Population anzuwenden.

Konzept

A/B-Tests

Beim A/B-Testing wird das Experiment in zwei Gruppen unterteilt, um die bessere von zwei Behandlungen, Produkten, Prozessen usw. zu ermitteln. Bei zwei Versuchsgruppen gibt es in der Regel eine Gruppe, die die bestehende Standardbehandlung anwendet oder keine Behandlung durchführt, die sogenannte Kontrollgruppe, und die andere Gruppe wird als Versuchsgruppe bezeichnet. Eine typische Annahme in einem Experiment ist, dass die Versuchsgruppe die Kontrollgruppe übertrifft.

  • Verarbeitung : Welche Themen werden behandelt, z. B. Drogen, Preise, Webtitel usw.
  • Versuchsgruppe : Eine Gruppe von Probanden, die einer spezifischen Behandlung unterzogen werden.
  • Kontrollgruppe : Eine Gruppe von Probanden, die entweder eine Standardbehandlung oder keine Behandlung erhalten.
  • Randomisierung : Der Prozess der zufälligen Zuweisung von Versuchspersonen zu Behandlungen.
  • Versuchspersonen : Personen, die eine Verarbeitung erhalten, z. B. Webbesucher, Patienten usw.
  • Teststatistik : Ein Maß, mit dem die Wirkung einer Behandlung getestet wird.

Bei einer einfach verblindeten Studie wissen die Probanden selbst nicht, ob sie Behandlung A oder Behandlung B erhalten. Wenn sich das Objekt der Behandlung bewusst ist, die es erhält, hat dies Auswirkungen auf die Reaktion. Bei einer Doppelblindstudie wissen weder der Forscher noch die Moderatoren (z. B. Ärzte und Krankenschwestern in einer medizinischen Studie), welcher Proband welche Behandlung erhalten hat.

hypothetischer Test

Hypothesentests werden auch Signifikanztests genannt. Der Zweck von Hypothesentests besteht darin, festzustellen, ob ein beobachteter Effekt durch Zufall verursacht wird.

  • Nullhypothese : Eine Hypothese, die ausschließlich auf Zufall beruht. Tatsächlich hoffen wir zu beweisen, dass die Nullhypothese falsch ist und dass der Unterschied zwischen den Ergebnissen von Gruppe A und Gruppe B größer ist als das, was möglicherweise durch Zufall verursacht wurde.
  • Alternativhypothese : Im Gegensatz zur Nullhypothese die Hypothese, die der Experimentator bestätigen möchte.
  • Einwegtest : Beim Hypothesentest werden Zufallsergebnisse nur in eine Richtung gezählt.
  • Zwei-Wege-Testen : Beim Hypothesentest werden Zufallsergebnisse sowohl in positiver als auch in negativer Richtung gezählt.

Resampling

In der Statistik bezeichnet Resampling die wiederholte Extraktion von Datenwerten aus beobachteten Daten mit dem Ziel, die Zufallsvariabilität in einer Statistik abzuschätzen.

Es gibt zwei Haupttypen von Resampling-Verfahren, nämlich Bootstrapping und Permutationstests . Die Bootstrap-Methode wird verwendet, um die Zuverlässigkeit eines Schätzers zu bewerten; ein Permutationstest kombiniert zwei oder mehr Gruppen von Stichproben und verteilt Beobachtungen nach dem Zufallsprinzip (oder vollständig) auf Neustichproben um, was auch als Randomisierungstest, Randomisierungs-Ersatzprüfung, Genauigkeitsprüfung usw. bezeichnet wird.

Signifikanztest

Statistische Signifikanz und p-Wert

Wenn das resultierende Ergebnis außerhalb des Bereichs der zufälligen Variation liegt, sprechen wir von statistischer Signifikanz.

  • p-Wert : Bei einem Zufallsmodell, das die Nullhypothese berücksichtigt, bezieht sich der p-Wert auf die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das genauso ungewöhnlich oder extrem ist wie das beobachtete Ergebnis. Er gibt an, wie oft das Zufallsmodell ein Ergebnis generiert, das größer ist extremer als das beobachtete Ergebnis.
  • Alpha-Wert : Der Alpha-Wert bezieht sich auf den Schwellenwert der Wahrscheinlichkeit der „Ungewöhnlichkeit“, den ein Zufallsergebnis überschreiten muss, damit das tatsächliche Ergebnis statistisch signifikant ist.
  • Fehler 1. Art : Ein durch Zufall verursachter Effekt wird fälschlicherweise als wahr bezeichnet.
  • Fehler 2. Art : fälschlicherweise wird der Zufälligkeit ein echter Effekt zugeschrieben.

In Bezug auf P-Werte werden in der Stellungnahme der American Statistical Association sechs Grundsätze für Forscher und Zeitschriftenherausgeber hervorgehoben:

  1. Der p-Wert gibt den Grad der Inkompatibilität zwischen den Daten und dem angegebenen statistischen Modell an.
  2. Der p-Wert misst weder die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, noch misst er die Wahrscheinlichkeit, dass Daten allein durch Zufall generiert wurden.
  3. Sie sollten keine wissenschaftlichen Schlussfolgerungen ziehen oder eine geschäftliche oder politische Entscheidung allein darauf basieren, ob der p-Wert einen bestimmten Schwellenwert überschreitet.
  4. Eine ordnungsgemäße Hochrechnung erfordert ein umfassendes Reporting und vollständige Transparenz.
  5. Der p-Wert (oder die statistische Signifikanz) misst weder die Größe des Effekts noch die Signifikanz des Ergebnisses.
  6. Der p-Wert allein liefert kein gutes Maß für ein Modell oder eine Hypothese.

T-Test

  • Teststatistik : Ein Maß für den Unterschied oder Effekt, an dem wir interessiert sind.
  • t-Statistik : Normalisierte Teststatistik.
  • t-Verteilung : Eine Referenzverteilung, die zum Vergleich beobachteter t-Statistiken verwendet wird. Bei T-Tests wird die Referenzverteilung aus der Nullhypothese generiert.

Mehrere Tests

Wenn wir die Daten aus genügend Perspektiven betrachten und genügend Fragen stellen, können wir fast immer statistisch signifikante Effekte finden.

  • Falscherkennungsrate : Die Rate, mit der bei mehreren Tests Fehler vom Typ I gemacht werden.
  • p-Wert-Korrektur : Wird für mehrere Tests mit denselben Daten verwendet.
  • Überanpassung : Rauschen wird angepasst.

Varianzanalyse

Die Varianzanalyse ist eine statistische Methode, die auf statistisch signifikante Unterschiede zwischen mehreren Gruppen prüft.

  • Paarweiser Vergleich : Führen Sie in Situationen mit mehreren Gruppen einen Hypothesentest zwischen den beiden Gruppen durch (z. B. den Mittelwert).
  • Omnibus-Test : Ein einzelner Hypothesentest, der die Varianz zwischen den Mittelwerten mehrerer Gruppen messen kann.
  • Varianzzerlegung : Isolieren des Beitrags einzelner Werte aus einer Gesamtstatistik (z. B. aus dem Gesamtmittelwert, den Behandlungsmittelwerten und den Residuen).
  • F-Statistik : Eine normalisierte Statistik, die auf dem Verhältnis der Varianz zwischen Gruppenmittelwerten (d. h. dem Behandlungseffekt) zur Varianz aufgrund von Residuen basiert. Sie wird verwendet, um zu messen, ob die Differenz zwischen den Mittelwerten mehrerer Gruppen den Zufallswert übersteigt. Modellerwartungen.
  • SS : Abkürzung für Summe der Quadrate, die sich auf die Abweichung von einem bestimmten Mittelwert bezieht.

Chi-Quadrat-Test

Der Chi-Quadrat-Test eignet sich für Zähldaten und testet, wie gut die Daten zur erwarteten Verteilung passen. In der statistischen Praxis wird die Chi-Quadrat-Statistik am häufigsten mit r×c-Kontingenztabellen verwendet, um zu bewerten, ob die Nullhypothese der Unabhängigkeit zwischen Variablen sinnvoll ist.

  • Chi-Quadrat-Statistik : Ein Maß dafür, wie stark beobachtete Daten von den Erwartungen abweichen.
  • Erwarteter Wert/Erwartung : Das Ergebnis, das die Daten unter einer bestimmten Hypothese (normalerweise der Nullhypothese) erwarten.

Mehrarmiger Banditenalgorithmus

Der Multi-Arm-Bandit-Algorithmus ist eine Testmethode, die sich besonders für Webtests eignet.

Regression und Prognose

Regressionsmodell

Das wahrscheinlich häufigste Ziel in der Statistik ist die Beantwortung der folgenden Frage: Steht die Variable X (in vielen Fällen X1,…,Xp) in Zusammenhang mit der Variablen Y? Wenn es eine Beziehung zwischen den beiden gibt, welche Beziehung besteht dann? Kann diese Korrelation verwendet werden, um Y vorherzusagen?

einfache lineare Regression

Eine einfache lineare Regression wird verwendet, um die Beziehung zwischen dem Ausmaß der Änderungen in zwei Variablen zu modellieren. Korrelation ist eine weitere Methode, um zu messen, wie gut zwei Variablen zusammenhängen. Der Unterschied zwischen beiden besteht darin, dass die Korrelation den Grad der Beziehung zwischen zwei Variablen misst, während die Regression die Art der Beziehung zwischen zwei Variablen quantifiziert.

  • Antwortvariable : Die Variable, die Sie vorhersagen möchten. (Abhängige Variable, Variable Y, Ziel, Ergebnis)
  • Unabhängige Variable : Die Variable, die zur Vorhersage der Antwort verwendet wird. (unabhängige Variable, Variable X, Merkmal, Attribut)
  • Datensatz : Ein Vektor, der eine bestimmte Person oder Instanz darstellt und aus Faktor- und Ergebniswerten besteht. (Zeile, Fall, Instanz, Beispiel)
  • Schnittpunkt : Der Schnittpunkt der Regressionslinie, der der vorhergesagte Wert ist, wenn X = 0. (b0, β0)
  • Regressionskoeffizient : Die Steigung der Regressionslinie. (Steigung, b1, β1, Parameterschätzungen, Gewichte)
  • Angepasster Wert : Der geschätzte Wert, der aus der Regressionslinie erhalten wird. (Vorhersagewert)
  • Residuum : Die Differenz zwischen beobachteten und angepassten Werten. (Fehler)
  • Kleinste Quadrate : Eine Methode zur Anpassung einer Regression durch Minimierung der Summe der Quadrate der Residuen. Die Summe der Quadrate der Restwerte wird auch als Restsumme der Quadrate (RSS) bezeichnet. Die Methode zur Minimierung von RSS ist die Regression der kleinsten Quadrate oder die Regression der gewöhnlichen kleinsten Quadrate (OLS). (gewöhnliche Methode der kleinsten Quadrate)

Y = b0 + b1X Diese Formel lautet wie folgt: „Y ist gleich Es ist üblich, Y als Ziel und X als Merkmalsvektor zu bezeichnen.“

multiple lineare Regression

  • Mittlerer quadratischer Fehler : Die Quadratwurzel des mittleren quadratischen Fehlers der Regression, der beim Vergleich von Regressionsmodellen am häufigsten verwendeten Metrik. (RMSE)
  • Standardisiertes Residuum : Die Berechnung ist die gleiche wie beim quadratischen Mittelfehler, außer dass sie entsprechend den Freiheitsgraden angepasst wird. (RSER)
  • R-Quadrat : Der Anteil der Variation, der durch das Modell erklärt werden kann, der Wert liegt zwischen 0 und 1. (Bestimmtheitsmaß, R2)
  • t-Statistik : Der Koeffizient des Prädiktors, geteilt durch den Standardfehler des Koeffizienten. Es bietet ein Maß zum Vergleich der Bedeutung von Variablen in einem Modell.
  • Gewichtete Regression : Bei der Regression haben Datensätze unterschiedliche Gewichtungen.

Polynomielle Regression und Spline-Regression

  • Polynomiale Regression : Polynomterme wie quadratische Terme, kubische Terme usw. werden zur Regressionsgleichung hinzugefügt.
  • Spline-Regression : Verwendet eine Reihe von Polynomsegmenten, um eine glatte Kurve anzupassen. Der Wert des durch Knoten getrennten Spline-Segments.
  • Verallgemeinertes additives Modell : ein Spline-Modell mit automatischer Knotenauswahl. (GAM)

Die Beziehung zwischen Antwort- und Prädiktorvariablen ist nicht immer linear.

vorhersagen

Interpretieren Sie die Regressionsgleichung

  • Extrapolation : Erweiterung des Modells über den zur Anpassung verwendeten Datenbereich hinaus. Regressionsmodelle sollten nicht über den verwendeten Datenbereich hinaus extrapoliert werden. Regressionsmodelle funktionieren nur für Prädiktoren mit ausreichenden Datenwerten.
  • Dummy-Variable : Eine binäre 0/1-Variable, die durch Neukodierung von Faktordaten erhalten wird und in Regressionsmodellen oder anderen Modellen verwendet werden kann.
  • Referenzkodierung : Die von Statistikern am häufigsten verwendete Art der Kodierung. Es verwendet eine Ebene von Faktoren als Referenzebene und vergleicht andere Faktoren mit der Referenzebene. (Kodierungsverarbeitung)
  • Ein Hot-Encoder : Eine häufig verwendete Codierung im Bereich des maschinellen Lernens. Dabei bleiben alle Faktorschichten erhalten. Während diese Codierung für einige Algorithmen für maschinelles Lernen funktioniert, funktioniert sie nicht für die multiple lineare Regression.
  • Bias-Kodierung : Bei der Kodierung wird nicht die Referenzschicht zum Vergleich herangezogen, sondern jede Schicht wird mit dem Gesamtmittelwert verglichen. (Kodierung der Summenkontraste)
  • Korrelierte Variablen : Wenn Prädiktoren stark korreliert sind, ist es schwierig, einen einzelnen Regressionskoeffizienten zu interpretieren.
  • Multikollinearität : Wenn eine perfekte oder nahezu perfekte Korrelation zwischen Prädiktorvariablen besteht, ist die Regression instabil oder kann nicht berechnet werden. Wenn eine Prädiktorvariable als lineare Kombination anderer Variablen ausgedrückt werden kann, entsteht ein perfektes Multikollinearitätsproblem. (Kollinearität)
  • Störvariablen : Eine wichtige Prädiktorvariable. Das Ignorieren dieser Variablen kann dazu führen, dass die Regressionsgleichung falsche Beziehungen ergibt.
  • Haupteffekt : Die Beziehung zwischen einer Prädiktorvariablen und einer Ergebnisvariablen, die unabhängig von anderen Variablen ist.
  • Interaktion : Die gegenseitige Abhängigkeit zwischen zwei oder mehr Prädiktorvariablen und der Antwort.

Testhypothese

  • Standardisierte Residuen : Residuen dividiert durch den Standardfehler der Residuen.
  • Ausreißer : Datensätze (oder Ergebniswerte), die weit von anderen Datensätzen (oder vorhergesagten Ergebnissen) entfernt sind.
  • Einflussreicher Wert : Ein Wert oder Datensatz, dessen Vorhandensein oder Fehlen einen signifikanten Unterschied in der Regressionsgleichung ausmacht.
  • Hebelwirkung : Der Grad, in dem ein einzelner Datensatz die Regressionsgleichung beeinflusst. (Hutwert)
  • Nicht normalverteilte Residuen : Nicht normalverteilte Residuen können einige technische Anforderungen für die Regression außer Kraft setzen. Aber in der Datenwissenschaft steht dieses Problem normalerweise nicht im Fokus.
  • Heteroskedastizität : Residuen mit höherer Variabilität in einem Teil des Ausgabebereichs. Dies kann darauf hindeuten, dass in der Regressionsgleichung eine Prädiktorvariable fehlt.
  • Partielles Residuendiagramm : Ein Diagnosediagramm, das die Beziehung zwischen einer Ergebnisvariablen und einer einzelnen Prädiktorvariablen zeigt. Die Grundidee besteht darin, die Beziehung zwischen der Prädiktorvariablen und der Antwortvariablen zu isolieren und alle anderen Prädiktorvariablen zu berücksichtigen. (Variablenplot hinzugefügt)

Einstufung

Methode

Naive Bayes-Methode

  • Bedingte Wahrscheinlichkeit : Die Wahrscheinlichkeit, ein Ereignis (z. B. X = i) bei einem anderen Ereignis (z. B. Y = i) zu beobachten, bezeichnet als P(Xi | Yi).
  • Posterior-Wahrscheinlichkeit : Die Wahrscheinlichkeit eines Ergebnisses angesichts der Prädiktoren (die Posterior-Wahrscheinlichkeit unterscheidet sich von der vorherigen Wahrscheinlichkeit des Ergebnisses, die keine Informationen über die Prädiktoren berücksichtigt).

Der Naive-Bayes-Algorithmus verwendet die Wahrscheinlichkeit der Beobachtung des Prädiktorwerts bei gegebener Ausgabe, um die Wahrscheinlichkeit der Beobachtung des Ergebnisses Y = i bei gegebenen Werten einer Reihe von Prädiktoren abzuschätzen.

Diskriminanzanalyse

  • Kovarianz : Ein Maß dafür, wie konsistent (ähnlich in Größe und Richtung) eine Variable in Bezug auf eine andere Variable ist.
  • Diskriminanzfunktion : Bei Anwendung auf Prädiktoren maximiert diese Funktion die Trennung zwischen Klassen.
  • Diskriminanzgewicht : Eine Bewertung, die durch Anwenden einer Diskriminanzfunktion zur Schätzung der Wahrscheinlichkeit, dass ein Datensatz zu einer bestimmten Klasse gehört, erhalten wird.

Die Diskriminanzanalyse ist der früheste vorgeschlagene statistische Klassifikator. Es enthält viele Methoden, von denen die lineare Diskriminanzanalyse (LDA) am häufigsten verwendet wird.

logistische Regression

  • Logit-Funktion : Eine Funktion, die die Wahrscheinlichkeit der Zugehörigkeit zu einer bestimmten Klasse auf den ±∞-Bereich abbildet (und nicht auf den Bereich zwischen 0 und 1). (Log-Quoten)
  • Quoten : Das Verhältnis zwischen „Erfolg“ (1) und „Misserfolg“ (0).
  • Log-Odds : Reaktion im transformierten Modell (d. h. lineares Modell). Die Antwort wurde einem Wahrscheinlichkeitswert zugeordnet.

Die logistische Regression ähnelt der multiplen linearen Regression, außer dass die Ergebnisse binär sind. Es verwendet eine Vielzahl von Transformationen, um das Problem in ein Problem umzuwandeln, das in ein lineares Modell passt. Bei der logistischen Regression handelt es sich ebenfalls um einen strukturierten Modellierungsansatz und nicht um einen datenzentrierten Ansatz. Dies ist dasselbe wie die Diskriminanzanalyse, unterscheidet sich jedoch von K-nächsten Nachbarn und naivem Bayes. Die logistische Regression lässt sich schnell berechnen und die Modellausgabe kann schnell neue Daten bewerten.

Auswerten

Auswerten

  • Genauigkeit : der Prozentsatz (oder Anteil) korrekter Klassifizierungen.
  • Verwirrungsmatrix : Zählen Sie Datensätze getrennt nach vorhergesagter Klassifizierung und tatsächlicher Klassifizierung und zeigen Sie die Zählergebnisse in Tabellenform an. Für binäre Variablen wird beispielsweise eine 2×2-Tabelle verwendet.
  • Sensitivität : Der Prozentsatz (oder Anteil) der Einsen, die in den Vorhersageergebnissen korrekt klassifiziert wurden. (abrufen)
  • Spezifität : Der Prozentsatz (oder Anteil) von 0, der in den Vorhersageergebnissen korrekt klassifiziert wurde.
  • Genauigkeit : Der Prozentsatz (oder Anteil) des vorhergesagten Ergebnisses beträgt 1 und der wahre Wert beträgt ebenfalls 1.
  • ROC-Kurve : Diagramm der Inspiration versus Spezifität.
  • Lift : Ein Maß für die Wirksamkeit eines Modells bei der Identifizierung (relativ seltener) Einsen bei unterschiedlichen Cutoff-Wahrscheinlichkeiten.

Eine einfache Möglichkeit, die Klassifizierungsleistung eines Modells zu messen, besteht darin, den Anteil richtiger Vorhersagen zu berechnen.

Verbessern

  • Unterabtastung : In einem Klassifizierungsmodell werden weniger Datensätze aus der Mehrheitsklasse verwendet. Die Grundidee besteht darin, dass die meisten Datentypen viele redundante Datensätze enthalten. Durch die Arbeit mit kleineren, ausgewogeneren Datensätzen wird die Modellleistung verbessert und die Datenvorbereitung sowie die Erkundung und das Experimentieren mit Modellen einfacher. (Downsampling)
  • Oversampling : In Klassifizierungsmodellen werden seltenere Klassendatensätze verwendet. Nutzen Sie bei Bedarf Selbsthilfemethoden. (Upsampling)
  • Höheres Gewicht, geringeres Gewicht : Im Modell erhalten seltene Klassen ein höheres Gewicht und Mehrheitsklassen ein kleineres Gewicht.
  • Datengenerierung : Ähnlich der Self-Service-Methode, mit der Ausnahme, dass sich jeder neue Self-Service-Datensatz geringfügig vom Originaldatensatz unterscheidet.
  • Z-Score : Der Wert, der durch Normalisierung der Ergebnisse generiert wird.
  • K : Die Anzahl der Nachbarn, die bei der Berechnung des nächsten Nachbarn verwendet werden.

Statistisches maschinelles Lernen

K-Algorithmus für den nächsten Nachbarn

  1. Finden Sie K Datensätze mit ähnlichen Merkmalen (d. h. mit ähnlichen vorhergesagten Werten).
  2. Suchen Sie zur Klassifizierung die Mehrheitsklasse unter diesen ähnlichen Datensätzen und weisen Sie sie als Klasse des neuen Datensatzes zu.
  3. Ermitteln Sie für die Vorhersage (auch als KNN-Regression bekannt) den Mittelwert dieser ähnlichen Datensätze und verwenden Sie diesen Mittelwert als vorhergesagten Wert des neuen Datensatzes.
  • Nächster Nachbar : Zwei Datensätze mit ähnlichen vorhergesagten Werten.
  • Abstandsmaß : Misst den Abstand zwischen zwei Datensätzen als einzelnen numerischen Wert.

Der K-Nächste-Nachbarn-Algorithmus ist eine einfache Vorhersage- und Klassifizierungstechnik, die keine Modellanpassung wie die Regression erfordert. Dies bedeutet jedoch nicht, dass die Verwendung des K-Algorithmus für den nächsten Nachbarn keinen manuellen Eingriff erfordert. Die Vorhersageergebnisse des K-Nächste-Nachbarn-Algorithmus hängen von Faktoren wie der Größe des Merkmals, der Methode zur Messung der Ähnlichkeit und der Einstellung des K-Werts ab.

Entscheidungsbaum

  • Rekursive Partitionierung : Wiederholtes Teilen und Unterteilen von Daten mit dem Ziel, die Ergebnisse innerhalb jeder endgültigen Unterteilung so homogen wie möglich zu machen.

  • Teilungswert : Ein Prädiktorwert, der eine Reihe von Datensätzen in zwei Teile teilt, sodass die Prädiktorvariable in einem Teil kleiner als der Teilungswert und die Prädiktorvariable im anderen Teil größer als der Teilungswert ist.

  • Knoten : In einem Entscheidungsbaum (oder in einem entsprechenden Satz von Verzweigungsregeln) ist ein Knoten eine grafische Darstellung (oder Regeldarstellung) eines Teilwerts.

  • Blatt : Der Endpunkt einer Reihe von Wenn-Dann-Regeln oder der Endpunkt eines Baumzweigs. Die Regeln für den Zugriff auf Blätter im Baum bilden die Klassifizierungsregeln für einen Datensatz im Baum.

  • Verlust : Die Anzahl der Fehlklassifizierungen während einer bestimmten Phase des Aufteilungsprozesses. Je größer der Verlust, desto größer die Verunreinigung.

  • Verunreinigung : Gibt den Grad an, in dem in einem Datensegment eine Mischung von Klassen gefunden wird. Je mehr Klassen in einer Unterteilung gemischt sind, desto höher ist die Verunreinigung der Unterteilung. (Heterogenität/Homogenität, Reinheit)

  • Beschneiden : Um eine Überanpassung zu reduzieren, wird ein ausgewachsener Baum schrittweise beschnitten.

  • Ensemble : Verwendung einer Reihe von Modellen, um eine Vorhersage zu treffen. (Modelldurchschnitt)

  • Bagging : Eine allgemeine Methode zum Erstellen einer Reihe von Modellen mithilfe von Bootstrapping für Daten. Bagging ist die Abkürzung für Bootstrap Aggregating. (Bootstrapping-Aggregation)

  • Random Forest : Eine Klasse von Bootstrap-Aggregationsschätzungen unter Verwendung von Entscheidungsbäumen. Dieser Algorithmus tastet nicht nur Datensätze ab, sondern auch Variablen. (Bootstrapping-Aggregations-Entscheidungsbaum)

  • Variablenbedeutung : Ein Maß für die Bedeutung einer Prädiktorvariablen für die Modellleistung.

  • Boosting : Eine allgemeine Methode, die beim Anpassen einer Reihe von Modellen verwendet wird. Durch das Boosten erhalten Datensätze mit größeren Residuen in jeder nachfolgenden Anpassungsrunde ein höheres Gewicht.

  • Adaboost : Eine frühe Implementierung des Boosting-Algorithmus, der die Daten basierend auf den Residuen neu gewichtet.

  • Gradient Boosting : Ein allgemeinerer Boosting-Algorithmus. Es wandelt das Problem in ein Kostenfunktionsminimierungsproblem um.

  • Stochastic Gradient Boosting (SGD): Der am häufigsten verwendete Boosting-Algorithmus. Es fügt in jeder Anpassungsrunde ein Resampling von Datensätzen und Datenspalten hinzu.

  • Regularisierung : Vermeiden Sie eine Überanpassung, indem Sie der Anzahl der Modellparameter in der Kostenfunktion einen Strafterm hinzufügen.

  • Hyperparameter : Parameter, die vor der Anpassung des Algorithmus festgelegt werden müssen.

unbeaufsichtigtes Lernen

Es bezieht sich auf eine statistische Methode, die die Konnotation von Daten extrahieren kann, ohne gekennzeichnete Daten (d. h. bekannte Daten auszugeben) zum Trainieren des Modells zu verwenden.

Hauptkomponentenanalyse

  • Hauptkomponente : Eine lineare Kombination von Prädiktorvariablen.
  • Ladungen : Die Gewichtswerte, die bei der Umwandlung von Prädiktoren in Komponenten verwendet werden. (Gewichte)
  • Gerölldiagramm : Ein Diagramm, das die Varianz von Komponenten zeigt und die relative Bedeutung jeder Komponente zeigt.

Die Hauptkomponentenanalyse (PCA) ist eine Technik, mit der die Art und Weise ermittelt werden kann, in der numerische Variablen kovariieren. Die Grundidee besteht darin, mehrere numerische Prädiktoren zu einem kleineren Satz von Variablen zu kombinieren, bei denen es sich um gewichtete Linearkombinationen der ursprünglichen Variablen handelt. Der resultierende kleinere Satz von Variablen wird als Hauptkomponente bezeichnet. Hauptkomponenten können den größten Teil der Variabilität im gesamten Variablensatz „erklären“ und gleichzeitig die Dimensionalität der Daten verringern. Die bei der Konstruktion der Hauptkomponenten verwendeten Gewichte spiegeln den relativen Beitrag der ursprünglichen Variablen zu den neuen Hauptkomponenten wider.

K-Means-Clustering

Clustering ist eine Technik zum Gruppieren von Daten, sodass Datensätze innerhalb einer Gruppe einander ähnlich sind. Ein Ziel des Clusterings besteht darin, wichtige und aussagekräftige Gruppen in den Daten zu identifizieren.

  • Cluster : Eine Gruppe ähnlicher Datensätze.
  • Klassenmittelwert : Ein Vektor, der den Mittelwert der aufgezeichneten Variablen innerhalb einer Klasse darstellt.
  • K : Die Anzahl der Klassen.

hierarchische Clusterbildung

Die Flexibilität der hierarchischen Clusterbildung hat ihren Preis: Sie lässt sich nicht gut auf große Datensätze mit Millionen von Datensätzen skalieren. Selbst bei mittelgroßen Datensätzen mit nur Zehntausenden von Datensätzen kann hierarchisches Clustering erhebliche Rechenressourcen erfordern.

Notizen aus „Practical Statistics for Data Scientists“

Acho que você gosta

Origin blog.csdn.net/food_for_thought/article/details/109427055
Recomendado
Clasificación