[Data Mining] Studiennotizen


<Datenvorverarbeitung>

  • Aggregation: Kombinieren Sie mehrere Stichproben oder Merkmale (Stichprobengröße reduzieren, Skala konvertieren, stabiler)
  • Probenahme: Entnahme einer Probe
  • Dimensionsreduktion: Darstellung von Proben im Positionsraum (PCA, SVD)
  • Feature-Auswahl: Wichtige Features auswählen (Lasso)
  • Feature-Erstellung: Nützliche Features rekonstruieren (Fouter-Transformation)
  • Diskretisierung
    • Der Prozess der Konvertierung kontinuierlicher Attribute in diskrete Attribute
    • Wird häufig zur Klassifizierung verwendet
  • Dualisierung
    • Ordnen Sie kontinuierliche oder kategoriale Attribute einer oder mehreren binären Variablen zu
    • Korrelationsanalyse
    • Konvertieren Sie kontinuierliche Attribute in kategoriale Attribute und wandeln Sie kategoriale Attribute in einen Satz binärer Variablen um
  • Variablentransformation
    • Konvertiert den Wert eines bestimmten Attributs
    • Lineare Transformationsmethode (einfache Funktion)
  • Standardisieren
    • Min-Max-Normalisierung (Normalisierung)
    • Z-Score-Normalisierung (Null-Mittelwert-Normalisierung)
    • Normalisierung der Dezimalskalierung

<sklearn-Plattform für maschinelles Lernen>

MLlib-Lernbibliothek:

  • Abgedeckte Algorithmen: Klassifizierungsalgorithmen, Clustering-Algorithmen, Regressionsalgorithmen, Dimensionsreduktionsalgorithmen
  • Hauptverwendung von Scikit-learn:
    • Symbol-Tags: Trainingsdaten, Trainingssatzbeschriftungen, Testdaten, Testsatzbeschriftungen, vollständige Daten, beschriftete Daten
    • Datenpartition:
      • train_test_split(x,y,random)
      • shuffle = True
    • Datenvorverarbeitung
    • Überwachte Lernalgorithmen (Klassifizierung,
      • logistische Regression
      • Support-Vektor-Maschinen
      • Naiver Bayes

Kapitel 3 Regressionsanalyse

3.1 Grundkonzepte der Regressionsanalyse

  • Regressionsanalyse
  • Geteilt durch die Anzahl der beteiligten Variablen: einfache Regression, multiple Regressionsanalyse
  • Aufgeteilt nach der Anzahl der abhängigen Variablen: einfache Regressionsanalyse, multiple Regressionsanalyse
  • Unterteilt nach der Art der Beziehung zwischen unabhängigen Variablen und abhängigen Variablen: lineare Regressionsanalyse, nichtlineare Regressionsanalyse.
  • Durch Regressionsanalyse gelöste Probleme:
    • Korrelation zwischen Variablen: deterministische Beziehung, nicht deterministische Beziehung
    • Den Wert einer Variablen vorhersagen oder steuern
  • Schritte der Regressionsanalyse
    • Variablen bestimmen: verwandte Einflussfaktoren (unabhängige Variablen), Haupteinflussfaktoren
    • Erstellen eines Vorhersagemodells: Berechnung historischer Statistiken für unabhängige und abhängige Variablen
    • Korrelationsanalyse durchführen: der Grad der Korrelation zwischen Variablen und vorhergesagten Objekten
    • Berechnen Sie den Vorhersagefehler: ob er für tatsächliche Vorhersagen verwendet werden kann
    • Bestimmen Sie den vorhergesagten Wert: Führen Sie eine umfassende Analyse des vorhergesagten Werts durch

3.2 Univariate lineare Regression

F-Test, T-Test

  • Y = a + bX + ε
  • Modellmerkmale:
    • Y ist eine lineare Funktion von X plus einem Fehlerterm
    • Der lineare Teil spiegelt Änderungen in Y aufgrund von Änderungen in X wider
    • Der gewählte Fehler ε ist eine Zufallsvariable
    • Für einen gegebenen Wert von X ist der erwartete Wert von Y E(Y) = a+bX
  • Regressionsgleichung:
  • Lösen von Regressionsgleichungen und Modelltests:
    • Kleinste Quadrate (Gleichungslösung), Restquadratsumme
    • Anpassungstest (Modelltest)
    • Signifikanztest der linearen Beziehung: Signifikanztest der Regressionsgleichung (Signifikanztest der Regressionsparameter), ESS, RSS
    • Beispiel für eine univariate lineare Regression
    • Bewertungskriterien r 2

3.3 Multiple lineare Regression

  • Y = a + b 1 X 1 + b 2 X 2 + … + b n X n
  • Modellmerkmale:
    • Y hat eine lineare Beziehung zu X 1 X 2 X 3 …X 4
    • Jeder Beobachtungswert Y i (i=1,2,3,…) ist unabhängig voneinander
    • Zufälliger Fehler ε~N(0,q 2 )
  • Lösen polynomialer Regressionsgleichungen mithilfe der Methode der kleinsten Quadrate
  • Anpassungstest
  • Signifikanztest von Regressionsparametern
  • Beispiel für eine multiple lineare Regression

3.4 Polynomielle Regression

  • Polynomielle Regressionsgleichung (nichtlinear → linear)
  • Beispiel einer polynomialen Regressionsgleichung
    • Lösen polynomialer Regressionsgleichungen
    • Regressionsgleichung F-Test
    • Polynomialer Regressionsgleichungs-T-Test

Bewertungskriterien für die Regression

  • Mittlerer quadratischer Fehler (MSE)
  • Mittlerer quadratischer Fehler (RMSE)
  • Mittlerer absoluter Fehler (MAE)
  • Wählen Sie MSE oder MAR?

Supongo que te gusta

Origin blog.csdn.net/Lenhart001/article/details/132691343
Recomendado
Clasificación