Artikelverzeichnis
<Datenvorverarbeitung>
- Aggregation: Kombinieren Sie mehrere Stichproben oder Merkmale (Stichprobengröße reduzieren, Skala konvertieren, stabiler)
- Probenahme: Entnahme einer Probe
- Dimensionsreduktion: Darstellung von Proben im Positionsraum (PCA, SVD)
- Feature-Auswahl: Wichtige Features auswählen (Lasso)
- Feature-Erstellung: Nützliche Features rekonstruieren (Fouter-Transformation)
- Diskretisierung
- Der Prozess der Konvertierung kontinuierlicher Attribute in diskrete Attribute
- Wird häufig zur Klassifizierung verwendet
- Dualisierung
- Ordnen Sie kontinuierliche oder kategoriale Attribute einer oder mehreren binären Variablen zu
- Korrelationsanalyse
- Konvertieren Sie kontinuierliche Attribute in kategoriale Attribute und wandeln Sie kategoriale Attribute in einen Satz binärer Variablen um
- Variablentransformation
- Konvertiert den Wert eines bestimmten Attributs
- Lineare Transformationsmethode (einfache Funktion)
- Standardisieren
- Min-Max-Normalisierung (Normalisierung)
- Z-Score-Normalisierung (Null-Mittelwert-Normalisierung)
- Normalisierung der Dezimalskalierung
<sklearn-Plattform für maschinelles Lernen>
MLlib-Lernbibliothek:
- Abgedeckte Algorithmen: Klassifizierungsalgorithmen, Clustering-Algorithmen, Regressionsalgorithmen, Dimensionsreduktionsalgorithmen
- Hauptverwendung von Scikit-learn:
- Symbol-Tags: Trainingsdaten, Trainingssatzbeschriftungen, Testdaten, Testsatzbeschriftungen, vollständige Daten, beschriftete Daten
- Datenpartition:
- train_test_split(x,y,random)
- shuffle = True
- Datenvorverarbeitung
- Überwachte Lernalgorithmen (Klassifizierung,
- logistische Regression
- Support-Vektor-Maschinen
- Naiver Bayes
Kapitel 3 Regressionsanalyse
3.1 Grundkonzepte der Regressionsanalyse
- Regressionsanalyse
- Geteilt durch die Anzahl der beteiligten Variablen: einfache Regression, multiple Regressionsanalyse
- Aufgeteilt nach der Anzahl der abhängigen Variablen: einfache Regressionsanalyse, multiple Regressionsanalyse
- Unterteilt nach der Art der Beziehung zwischen unabhängigen Variablen und abhängigen Variablen: lineare Regressionsanalyse, nichtlineare Regressionsanalyse.
- Durch Regressionsanalyse gelöste Probleme:
- Korrelation zwischen Variablen: deterministische Beziehung, nicht deterministische Beziehung
- Den Wert einer Variablen vorhersagen oder steuern
- Schritte der Regressionsanalyse
- Variablen bestimmen: verwandte Einflussfaktoren (unabhängige Variablen), Haupteinflussfaktoren
- Erstellen eines Vorhersagemodells: Berechnung historischer Statistiken für unabhängige und abhängige Variablen
- Korrelationsanalyse durchführen: der Grad der Korrelation zwischen Variablen und vorhergesagten Objekten
- Berechnen Sie den Vorhersagefehler: ob er für tatsächliche Vorhersagen verwendet werden kann
- Bestimmen Sie den vorhergesagten Wert: Führen Sie eine umfassende Analyse des vorhergesagten Werts durch
3.2 Univariate lineare Regression
F-Test, T-Test
- Y = a + bX + ε
- Modellmerkmale:
- Y ist eine lineare Funktion von X plus einem Fehlerterm
- Der lineare Teil spiegelt Änderungen in Y aufgrund von Änderungen in X wider
- Der gewählte Fehler ε ist eine Zufallsvariable
- Für einen gegebenen Wert von X ist der erwartete Wert von Y E(Y) = a+bX
- Regressionsgleichung:
- Lösen von Regressionsgleichungen und Modelltests:
- Kleinste Quadrate (Gleichungslösung), Restquadratsumme
- Anpassungstest (Modelltest)
- Signifikanztest der linearen Beziehung: Signifikanztest der Regressionsgleichung (Signifikanztest der Regressionsparameter), ESS, RSS
- Beispiel für eine univariate lineare Regression
- Bewertungskriterien r 2
3.3 Multiple lineare Regression
- Y = a + b 1 X 1 + b 2 X 2 + … + b n X n
- Modellmerkmale:
- Y hat eine lineare Beziehung zu X 1 X 2 X 3 …X 4
- Jeder Beobachtungswert Y i (i=1,2,3,…) ist unabhängig voneinander
- Zufälliger Fehler ε~N(0,q 2 )
- Lösen polynomialer Regressionsgleichungen mithilfe der Methode der kleinsten Quadrate
- Anpassungstest
- Signifikanztest von Regressionsparametern
- Beispiel für eine multiple lineare Regression
3.4 Polynomielle Regression
- Polynomielle Regressionsgleichung (nichtlinear → linear)
- Beispiel einer polynomialen Regressionsgleichung
- Lösen polynomialer Regressionsgleichungen
- Regressionsgleichung F-Test
- Polynomialer Regressionsgleichungs-T-Test
Bewertungskriterien für die Regression
- Mittlerer quadratischer Fehler (MSE)
- Mittlerer quadratischer Fehler (RMSE)
- Mittlerer absoluter Fehler (MAE)
- Wählen Sie MSE oder MAR?