3. Support Vector Machine-Algorithmus (SVC, Support Vector Classification) (überwachtes Lernen)

Support Vector Machine ist die sogenannte SVM. Sie bezieht sich auf eine Reihe von Algorithmen für maschinelles Lernen und wird entsprechend den verschiedenen gelösten Problemen in SVC (Klassifizierung) und SVR (Regression) unterteilt.

SVC, Support Vector Classification, ist im Wesentlichen eine Support-Vektor-MaschineSupport-Vektor, wird aber nur zur Klassifizierung verwendet< a i =3>KlassifizierungAufgabe SVR, Support Vector Regression, sein Wesen ist auch eine Support Vector MachineSupport Vector< /span> Diese Spalte ist hauptsächlich eine Zusammenfassung der Klassifizierungsalgorithmen . Hauptsächlich SVC einführenAufgabeRegression, nur für Regression

C-Support Vector Classification (C-Support Vector Classifier) wird basierend auf libsvm implementiert. Die Anpassungszeit steht zumindest in einem quadratischen Zusammenhang mit der Anzahl der Proben und ist bei mehr als zehntausend Proben möglicherweise nicht durchführbar. Erwägen Sie bei großen Datensätzen die Verwendung von LinearSVC oder SGDClassifier, möglicherweise nach Verwendung des Nystroem-Transformators oder anderer Kernel-Approximationsmethoden.

1. Algorithmusidee

Nehmen Sie als Beispiel die Zwei-Klassifizierungsaufgabe. Es gibt zwei verschiedene Arten von Probendaten. Eine neue Probe wird empfangen und klassifiziert. Hier sind einige Kernkonzepte, die in meiner eigenen Umgangssprache beschrieben werden.

Suchen Sie eine Linie, die die Beispieldaten dieser beiden Kategorien teilen kann. Diese Linie wird als Entscheidungsgrenze bezeichnet.
Nehmen Sie die Entscheidungsgrenze als Mittelpunkt und übertragen Sie sie auf beide Seiten. Bis zum Der Abtastpunkt wird berührt, das Intervall zwischen den beiden Linien wird als Rand (Intervall) bezeichnet. Der berührte Abtastpunkt wird als Stützvektor bezeichnet
und wird schließlich< a i=3>Finden Sie größter SpielraumProblem

Entscheidungsgrenze: Finden Sie eine Linie (zweidimensional), die die beiden Datenkategorien trennen kann, oder eine Hyperebene (dreidimensional) usw.
Intervall: Zentrieren Sie die Entscheidung Grenze Auf beiden Seiten verschieben, bis der nächste Abtastpunkt erreicht ist. Der Abstand zwischen diesen beiden Linien ist der Rand (Intervall).
Unterstützungsvektor: Auf beide Seiten verschieben, mit der Entscheidungsgrenze als Mittelpunkt. Diese beiden Linien Die angetroffenen Abtastpunkte werden als Stützvektoren bezeichnet
Hartes Intervall: starres Intervall, das Intervall, das durch strikte Befolgung der Lösungsidee des Algorithmus erhalten wird
Weiches Intervall: flexibles Intervall, wenn Gibt es einen Ausreißer oder Rauschpunkt, kann dieser durch Regularisierung eingeschränkt werden, um eine Konsistenz zu erhalten

Das blaue Rauschen hier sollte zur Fünfeckkategorie gehören, es handelt sich jedoch um eine fünfzackige Sternkategorie im Datensatzbeispiel. Bei diesem Beispiel handelt es sich um einen Rauschpunkt, der sich auf die normale Klassifizierung auswirkt und eliminiert werden muss. Zu diesem Zeitpunkt a Soft-Intervall wird eingeführt, um die Auswirkungen von Lärm zu reduzieren.
Fügen Sie hier eine Bildbeschreibung ein

2. Offizielle Website-API

Offizielle Website-API

class sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False, random_state=None)

Hier gibt es eine ganze Reihe von Parametern. Informationen zur spezifischen Parameterverwendung können Sie anhand der auf der offiziellen Website bereitgestellten Demo lernen und mehr ausprobieren. Hier finden Sie einige häufig verwendete Parameter zur Erläuterung.
Leitfadenpaket:from sklearn.svm import SVC

①Regularisierungsparameter C

Die Stärke der Regularisierung ist umgekehrt proportional zum Regularisierungsparameter C. Die Strafe ist das Quadrat der L2-Regularisierung. C ist ein Gleitkommazahlentyp.