Starfruit Python maschinelles Lernen 3 einzelne und mehrere Funktionen, Trainingssatz und Testsatz

Meine CSDN-Blogspalte: https://blog.csdn.net/yty_7

Github-Adresse: https://github.com/yot777/

 

Einzelne und mehrere Funktionen

Im Beispiel für Beschriftungen und Features im vorherigen Abschnitt haben wir eine Eins-zu-Eins-Entsprechung zwischen Beschriftungen und Features verwendet:

  Merkmale (Höhe in Metern) Etikett
EIN 1.51 0
B. 1,61 1
C. 1,76 1
D. 2.1 1
E. 1,58 0
F. 1,68 1

Tatsächlich gibt es im wirklichen Leben eine große Anzahl von mehreren Merkmalen, die einem Etikett entsprechen. Nehmen Sie das bekannte Problem der linearen Programmierung als Beispiel:

Bei diesem Problem gibt es zwei Merkmale, x1 und x2, die zusammen den Umsatzgewinn der Werkzeugmaschinenanlage bestimmen.

Nach der grafischen Methode der linearen Programmierung können wir erhalten:

Der gelbe Teil in der obigen Abbildung ist der realisierbare Bereich, und jede Koordinate (x1, x2) im realisierbaren Bereich wird als Bezeichnung 1 (machbar) aufgezeichnet.

Mit Ausnahme des möglichen Bereichs wird jede Koordinate (x1, x2) als Bezeichnung 0 markiert (nicht möglich).

Auf diese Weise haben wir den Abgleich mehrerer Merkmale abgeschlossen, die einem Etikett entsprechen.

Trainingsset und Testset

Gemäß den Ergebnissen der grafischen Methode können wir die Eigenschaften und Beschriftungen der folgenden 10 Beispieldaten erhalten

Unter diesen ist die Bezeichnung von 5 Daten 0 und die Bezeichnung von 5 Daten ist 1, insgesamt 10 Daten bilden den Quelldatensatz:

Beispieldaten Feature x1 Merkmal x2 Etikett
1 1 2 1
2 4 5 0
3 2 1 1
4 4 2 1
5 6 1 0
6 3 3 1
7 5 2 0
8 4 5 0
9 2 7 0
10 2 6 1

 

In der Einleitung haben wir gelernt, dass die ersten beiden Schritte des maschinellen Lernens sind:

Gelerntes Wissen: Durch mathematische Modellierung durch eine große Menge von Trainingsdaten kann die Maschine ein bestimmtes Datenmuster "lernen".

Rechtzeitige Überprüfung: Führen Sie die Testdaten durch das erstellte Modell , um zu überprüfen, ob die erlernten Gesetze korrekt sind.

Jetzt haben wir nur noch 10 Daten. Im Allgemeinen werden 70% ~ 80% der Daten für die mathematische Modellierung verwendet. Dieser Teil der Daten wird als Trainingssatz bezeichnet.

Die verbleibenden 20% bis 30% der Daten werden verwendet, um zu überprüfen, ob die Daten nach dem Modellierungsvorgang korrekt beschriftet sind. Dieser Teil der Daten wird als Testsatz bezeichnet.

Im Bereich des maschinellen Lernens verwenden wir normalerweise die folgenden 4 Variablen, um den Trainingssatz, den Testsatz sowie deren Merkmale und Bezeichnungen darzustellen:

X_train repräsentiert Trainingssatzfunktionen, y_train repräsentiert Trainingssatzbezeichnungen

X_test gibt die Eigenschaften des Testsatzes an und y_test gibt die Bezeichnung des Testsatzes an.

Hinweis: X ist ein Großbuchstabe, der eine Matrix angibt (ein Datenelement kann mehrere Merkmale aufweisen), y ist ein Kleinbuchstabe, der einen Vektor angibt (ein Datenelement kann nur eine Bezeichnung haben).

Nach dem Prinzip von 80% Trainingssatz und 20% Testsatz unterteilen wir die obige Tabelle in die folgenden 4 Teile:

Python-Implementierungs-Trainingsset und Test-Set

Der Code lautet wie folgt:

import numpy as np
#源数据矩阵
S = np.array([[1,2,1],[4,5,0],[2,1,1],[4,2,1],[6,1,0],[3,3,1],[5,2,0],[4,5,0],[2,7,0],[2,6,1]])
print('源数据矩阵是\n',S)
#X_train训练集特征矩阵,先取行再取列
X_train = S[:8][:,0:-1]
print('X_train训练集特征矩阵是\n',X_train)
#y_train训练集标签向量,先取行再取列
y_train = S[:8][:,-1]
print('y_train训练集标签向量是\n',y_train)
#X_test测试集特征矩阵,先取行再取列
X_test = S[8:][:,0:-1]
print('X_test测试集特征矩阵是\n',X_test)
#y_train训练集标签向量,先取行再取列
y_test = S[8:][:,-1]
print('y_test测试集标签向量是\n',y_test)

Betriebsergebnis:

源数据矩阵是
 [[1 2 1]
 [4 5 0]
 [2 1 1]
 [4 2 1]
 [6 1 0]
 [3 3 1]
 [5 2 0]
 [4 5 0]
 [2 7 0]
 [2 6 1]]
X_train训练集特征矩阵是
 [[1 2]
 [4 5]
 [2 1]
 [4 2]
 [6 1]
 [3 3]
 [5 2]
 [4 5]]
y_train训练集标签向量是
 [1 0 1 1 0 1 0 0]
X_test测试集特征矩阵是
 [[2 7]
 [2 6]]
y_test测试集标签向量是
 [0 1]

Zusammenfassung

Im wirklichen Leben gibt es eine große Anzahl von mehreren Merkmalen, die einem Etikett entsprechen.

Die für die mathematische Modellierung in den Quelldaten verwendeten Daten werden als Trainingssatz bezeichnet , der im Allgemeinen 70% bis 80% der Quelldaten ausmacht

Die Quelldaten werden verwendet, um zu überprüfen, ob die Daten nach dem Modellierungsvorgang korrekt beschriftet sind. Dieser Teil der Daten wird als Testsatz bezeichnet , der im Allgemeinen 20% bis 30% der Quelldaten ausmacht.

Im Bereich des maschinellen Lernens verwenden wir normalerweise die folgenden 4 Variablen, um den Trainingssatz, den Testsatz sowie deren Merkmale und Bezeichnungen darzustellen:

X_train repräsentiert Trainingssatzfunktionen, y_train repräsentiert Trainingssatzbezeichnungen

X_test gibt die Eigenschaften des Testsatzes an und y_test gibt die Bezeichnung des Testsatzes an.

Hinweis: X ist ein Großbuchstabe, der eine Matrix angibt (ein Datenelement kann mehrere Merkmale aufweisen), y ist ein Kleinbuchstabe, der einen Vektor angibt (ein Datenelement kann nur eine Bezeichnung haben).

 

Meine CSDN-Blogspalte: https://blog.csdn.net/yty_7

Github-Adresse: https://github.com/yot777/

Wenn Sie der Meinung sind, dass dieses Kapitel für Sie hilfreich ist, können Sie es gerne befolgen, kommentieren und mögen! Github heißt Ihr Follow and Star willkommen!

Veröffentlicht 55 Originalarbeiten · erntete Lob 16 · Ansichten 6111

Ich denke du magst

Origin blog.csdn.net/yty_7/article/details/105038648
Empfohlen
Rangfolge