Unüberwachtes Lernen – K-bedeutet Clustering – Wissenspunktkompetenz

Vorwort

In der praktischen Arbeit stoßen wir häufig auf ein solches Problem: Geben Sie eine große Menge an Merkmalsdaten in die Maschine ein und erwarten Sie, dass die Maschine durch Lernen einige gemeinsame Merkmale oder Strukturen in den Daten findet oder eine Beziehung zwischen den Daten herstellt.
Beispielsweise gruppieren Video-Websites Benutzer nach ihrem Sehverhalten, um unterschiedliche Empfehlungsstrategien zu etablieren, oder ermitteln den Zusammenhang zwischen der reibungslosen Wiedergabe des Videos und der Abmeldung von Benutzern usw. Diese Art von Problem wird als Problem des „unüberwachten Lernens“ bezeichnet und erwartet nicht, wie beim überwachten Lernen, eine bestimmte Ausgabe vorherzusagen.
Im Vergleich zum überwachten Lernen verfügen die Eingabedaten des unüberwachten Lernens über keine Etiketteninformationen, und es sind algorithmische Modelle erforderlich, um die inhärente Struktur und das Muster der Daten zu ermitteln.
Unüberwachtes Lernen umfasst hauptsächlich zwei Arten von Lernmethoden: Datenclusterung und Merkmalsvariablenzuordnung. Unter diesen findet der Clustering-Algorithmus häufig die optimale Segmentierung von Daten durch mehrere Iterationen, und die Merkmalsvariablenzuordnung verwendet verschiedene Korrelationsanalysemethoden, um die Beziehung zwischen Variablen zu ermitteln.

K-bedeutet Clustering

Szenariobeschreibung:
Klassische Algorithmen für maschinelles Lernen wie Support-Vektor-Maschinen, logistische Regression und Entscheidungsbäume werden hauptsächlich für Klassifizierungsprobleme verwendet, d. Anders als bei Klassifizierungsproblemen besteht das Clustering darin, Stichproben durch die interne Beziehung zwischen Daten in mehrere Kategorien zu unterteilen, ohne vorher die Stichprobenkategoriebezeichnungen zu kennen, sodass die Ähnlichkeit zwischen Stichproben derselben Kategorie hoch und die Ähnlichkeit zwischen Stichproben verschiedener Kategorien gering ist.
Fügen Sie hier eine Bildbeschreibung ein

(Verschiedene Farben repräsentieren unterschiedliche Kategorien).

Klassifizierungsprobleme fallen unter den Begriff überwachtes Lernen, während Clustering unüberwachtes Lernen ist. K-Means-Clustering (KMeans Clustering) ist der grundlegendste und am häufigsten verwendete Clustering-Algorithmus. Seine Grundidee besteht darin, iterativ ein Aufteilungsschema für K-Cluster (Cluster) zu finden, sodass die dem Clusterergebnis entsprechende Kostenfunktion minimiert wird. Insbesondere kann die Kostenfunktion als Summe der Fehlerquadrate zwischen jeder Stichprobe und dem Mittelpunkt des Clusters definiert werden,
Fügen Sie hier eine Bildbeschreibung ein
wobei xi die i-te Stichprobe darstellt, ci der Cluster ist, zu dem xi gehört, μci der dem Cluster entsprechende Mittelpunkt darstellt und M die Gesamtzahl der Stichproben darstellt.

Beschreibung des Algorithmus

Das Hauptziel des K-Means-Clustering besteht darin, einen bestimmten Datensatz in K Cluster zu unterteilen und den Cluster-Mittelpunkt für jeden Datenwert anzugeben. Die spezifischen Schritte des Algorithmus werden wie folgt beschrieben:
Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein

Verfahren

Abb. 2 ist ein schematisches Diagramm eines iterativen Prozesses des K-Means-Algorithmus. Zunächst können anhand einiger Stichprobenpunkte im zweidimensionalen Raum (siehe Abbildung 2(a)) diese Punkte intuitiv in zwei Kategorien unterteilt werden. Als nächstes initialisieren Sie zwei Mittelpunkte (die braunen und gelben Gabeln in Abbildung 2(b) stellen die Mittelpunkte dar) und berechnen den Cluster, zu dem jede Stichprobe gehört, anhand des Bits des Mittelpunkts (Abbildung 2(c) wird durch verschiedene Farben dargestellt). Berechnen Sie dann die neue Mittelpunktposition gemäß dem Durchschnittswert aller Punkte in jedem Cluster (siehe Abbildung 2(d)); Abbildung 2(e) und Abbildung 2(f) zeigt die Ergebnisse einer neuen Iterationsrunde. Nach zwei Iterationsrunden konvergiert der Algorithmus
grundsätzlich
.
Fügen Sie hier eine Bildbeschreibung ein

Vorteile und Nachteile

Die Hauptnachteile des K-Means-Algorithmus sind folgende.
(1) Der anfängliche K-Wert muss im Voraus manuell bestimmt werden, und dieser Wert stimmt möglicherweise nicht mit der tatsächlichen Datenverteilung überein.
(2) K-Mittel können nur zu einem lokalen Optimum konvergieren, und der Effekt wird stark vom Anfangswert beeinflusst.
(3) Anfällig für Lärm.

Supongo que te gusta

Origin blog.csdn.net/ALiLiLiYa/article/details/131775925
Recomendado
Clasificación