<Datenvorverarbeitung>

Aggregation: Kombinieren Sie mehrere Stichproben oder Merkmale (Stichprobengröße reduzieren, Skala konvertieren, stabiler)
Probenahme: Entnahme einer Probe
Dimensionsreduktion: Darstellung von Proben im Positionsraum (PCA, SVD)
Feature-Auswahl: Wichtige Features auswählen (Lasso)
Feature-Erstellung: Nützliche Features rekonstruieren (Fouter-Transformation)
Diskretisierung
- Der Prozess der Konvertierung kontinuierlicher Attribute in diskrete Attribute
- Wird häufig zur Klassifizierung verwendet
Dualisierung
- Ordnen Sie kontinuierliche oder kategoriale Attribute einer oder mehreren binären Variablen zu
- Korrelationsanalyse
- Konvertieren Sie kontinuierliche Attribute in kategoriale Attribute und wandeln Sie kategoriale Attribute in einen Satz binärer Variablen um
Variablentransformation
- Konvertiert den Wert eines bestimmten Attributs
- Lineare Transformationsmethode (einfache Funktion)
Standardisieren
- Min-Max-Normalisierung (Normalisierung)
- Z-Score-Normalisierung (Null-Mittelwert-Normalisierung)
- Normalisierung der Dezimalskalierung

<sklearn-Plattform für maschinelles Lernen>

MLlib-Lernbibliothek:

Abgedeckte Algorithmen: Klassifizierungsalgorithmen, Clustering-Algorithmen, Regressionsalgorithmen, Dimensionsreduktionsalgorithmen
Hauptverwendung von Scikit-learn:
- Symbol-Tags: Trainingsdaten, Trainingssatzbeschriftungen, Testdaten, Testsatzbeschriftungen, vollständige Daten, beschriftete Daten
- Datenpartition:
  - train_test_split(x,y,random)
  - shuffle = True
- Datenvorverarbeitung
- Überwachte Lernalgorithmen (Klassifizierung,
  - logistische Regression
  - Support-Vektor-Maschinen
  - Naiver Bayes

Kapitel 3 Regressionsanalyse

3.1 Grundkonzepte der Regressionsanalyse

Regressionsanalyse
Geteilt durch die Anzahl der beteiligten Variablen: einfache Regression, multiple Regressionsanalyse
Aufgeteilt nach der Anzahl der abhängigen Variablen: einfache Regressionsanalyse, multiple Regressionsanalyse
Unterteilt nach der Art der Beziehung zwischen unabhängigen Variablen und abhängigen Variablen: lineare Regressionsanalyse, nichtlineare Regressionsanalyse.
Durch Regressionsanalyse gelöste Probleme:
- Korrelation zwischen Variablen: deterministische Beziehung, nicht deterministische Beziehung
- Den Wert einer Variablen vorhersagen oder steuern
Schritte der Regressionsanalyse
- Variablen bestimmen: verwandte Einflussfaktoren (unabhängige Variablen), Haupteinflussfaktoren
- Erstellen eines Vorhersagemodells: Berechnung historischer Statistiken für unabhängige und abhängige Variablen
- Korrelationsanalyse durchführen: der Grad der Korrelation zwischen Variablen und vorhergesagten Objekten
- Berechnen Sie den Vorhersagefehler: ob er für tatsächliche Vorhersagen verwendet werden kann
- Bestimmen Sie den vorhergesagten Wert: Führen Sie eine umfassende Analyse des vorhergesagten Werts durch

F-Test, T-Test

Y = a + bX + ε
Modellmerkmale:
- Y ist eine lineare Funktion von X plus einem Fehlerterm
- Der lineare Teil spiegelt Änderungen in Y aufgrund von Änderungen in X wider
- Der gewählte Fehler ε ist eine Zufallsvariable
- Für einen gegebenen Wert von X ist der erwartete Wert von Y E(Y) = a+bX
Regressionsgleichung:
Lösen von Regressionsgleichungen und Modelltests:
- Kleinste Quadrate (Gleichungslösung), Restquadratsumme
- Anpassungstest (Modelltest)
- Signifikanztest der linearen Beziehung: Signifikanztest der Regressionsgleichung (Signifikanztest der Regressionsparameter), ESS, RSS
- Beispiel für eine univariate lineare Regression
- Bewertungskriterien r ²

Y = a + b ₁ X ₁ + b ₂ X ₂ + … + b _n X _n
Modellmerkmale:
- Y hat eine lineare Beziehung zu X ₁ X ₂ X ₃ …X ₄
- Jeder Beobachtungswert Y _i (i=1,2,3,…) ist unabhängig voneinander
- Zufälliger Fehler ε~N(0,q ² )
Lösen polynomialer Regressionsgleichungen mithilfe der Methode der kleinsten Quadrate
Anpassungstest
Signifikanztest von Regressionsparametern
Beispiel für eine multiple lineare Regression

Polynomielle Regressionsgleichung (nichtlinear → linear)
Beispiel einer polynomialen Regressionsgleichung
- Lösen polynomialer Regressionsgleichungen
- Regressionsgleichung F-Test
- Polynomialer Regressionsgleichungs-T-Test