Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl – Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl (5)

Hybriden

Um Filter- und Wrapper-Ansätze, d. h. Hybridansätze, zu nutzen, werden in der Filterphase Metriken angewendet, um Merkmale basierend auf intrinsischen Eigenschaften der Daten einzustufen oder auszuwählen. Während der Wrapping-Phase werden bestimmte Teilmengen von Features durch einen bestimmten Clustering-Algorithmus ausgewertet, um die beste Teilmenge von Features zu finden. Wir können zwei Arten von Hybridmethoden unterscheiden: solche, die auf dem Ranking basieren, und solche, die nicht auf dem Feature-Ranking basieren. In diesem Abschnitt beschreiben wir einige Methoden, die zu den beiden Arten dieser Methode gehören.

Dash und Liu (2000) führten die erste auf Rankings basierende, unbeaufsichtigte Hybrid-Feature-Auswahlmethode ein. Die Methode basiert auf dem von Dash et al. (1997) vorgeschlagenen Entropiemaß (Filterstufe) und dem Kriterium der internen Streutrennbarkeit (Dy und Brodley 2004) (Packstufe). In der Filterphase wird jedes Feature einzeln aus dem gesamten Feature-Set entfernt und die im Datensatz nach der Feature-Entfernung erzeugte Entropie berechnet. Dadurch wird eine geordnete Liste von Features erstellt, die auf dem Grad der Unordnung basiert, die jedes Feature erzeugen würde, wenn es aus dem gesamten Feature-Set entfernt würde. Sobald alle Features eingestuft sind, wird in der Wrapper-Phase eine Vorwärtsauswahlsuche mit dem k-means-Clustering-Algorithmus angewendet, um Cluster zu bilden, die anhand des Kriteriums der verteilten Trennbarkeit bewertet werden. Die Methode wählt die Teilmenge der Features aus, die den höchsten Trennbarkeitskriteriumswert erreichen.

Li et al. (2006) schlugen einen weiteren hybriden Ansatz vor, der auf dem Feature-Ranking basiert. Bei dieser Methode kombinieren die Autoren das exponentielle Entropiemaß mit dem Fuzzy-Bewertungsindex FFEI (Pal et al., 2000) für die Merkmalsrangfolge bzw. die Merkmalsteilmengenauswahl. Die Methode basiert auf generativem Ranking, verwendet eine sequentielle Suche unter Berücksichtigung von Teilmengen von Merkmalen und verwendet den Fuzzy-Bewertungsindex als Qualitätsmaß. In der Wrapping-Phase werden zur Auswahl einer kleineren Teilmenge von Merkmalen ein Fuzzy-C-Means-Algorithmus und das dezentrale Trennbarkeitskriterium (Dy und Brodley 2004) verwendet, um eine von den Autoren als „kompakte“ Teilmenge von Merkmalen bezeichnete Auswahl auszuwählen.

Solorio Fernández et al. (2016) schlugen einen rankenbasierten Ansatz für die unbeaufsichtigte Merkmalsauswahl vor. Bei dieser Methode kombinieren die Autoren die Auswahl spektraler Merkmale und den Calinski-Harabasz-Index (Calinski und Harabasz 1974), um eine Teilmenge relevanter Merkmale auszuwählen. Die Feature-Auswahl ist in zwei Phasen unterteilt: (1) Feature-Ranking und (2) Feature-Teilmengenauswahl. In der ersten Phase besteht die Idee darin, diejenigen Merkmale zu identifizieren, die die Struktur der Daten bewahren, und den Laplace-Score für jedes Merkmal zu berechnen (He et al. 2005). Dadurch wird eine Rangfolge der Merkmale erstellt. Anschließend wird in der zweiten Phase unter Verwendung der in der vorherigen Phase generierten Rankings und mithilfe einer Vorwärts- oder Rückwärtsauswahlsuche mithilfe einer modifizierten Methode namens WNCH (Weighted Normalized Calinski-Harabasz-Index, gewichteter normalisierter Calinski-Harabasz-Index) der interne Bewertungsindex a ausgewertet Teilmenge der Funktionen. Wählen Sie die Feature-Teilmenge mit dem höchsten WNCH-Wert aus.

Andererseits wird in Hruschka et al. (2005) ein hybrider, nicht auf Rangfolge basierender UFS-Ansatz namens BFK vorgestellt, der k-Mittelwerte und Bayes'sche Filter kombiniert. Im Gegensatz zu allen oben genannten Hybridmethoden beginnt diese mit einer Wrapper-Phase, die den kmeans-Clustering-Algorithmus für einen Datensatz ausführt, der eine vom Benutzer angegebene Clusterfolge enthält. Cluster werden anhand vereinfachter Profilkriterien bewertet und der Cluster mit dem höchsten Wert wird ausgewählt. Anschließend werden in der Filterungsphase Merkmalsteilmengen von Bayes'schen Netzwerken unter Verwendung des Konzepts der Markov-Abdeckung ausgewählt, wobei jeder Cluster eine Klasse darstellt, Knoten Merkmale darstellen und Kanten die Beziehung zwischen Merkmalen darstellen.

Kim und Gao (2006) führten eine weitere Hybridmethode ein, die auf Nicht-Ranking basiert und irrelevante und redundante Merkmale entfernt. Die Methode führt die Merkmalsauswahl in zwei Schritten durch: Im ersten Schritt wird eine auf der Methode der kleinsten Quadrate (LSE) basierende Auswertung (Mao 2005) angewendet, um eine Teilmenge von Merkmalen zu erstellen. Der zweite Schritt wendet nur die im ersten Schritt identifizierten Features an und findet die optimale Teilmenge von Features, die die Clustering-Leistung maximiert, indem eine sequentielle Vorwärtsauswahlsuche (unter Verwendung einer modifizierten Version des EM-Clustering-Algorithmus) verwendet wird.

Abschließend ist anzumerken, dass in der Literatur auch einige hybride unbeaufsichtigte Merkmalsauswahlmethoden für den Umgang mit domänenspezifischen Daten vorgeschlagen wurden, wie z. B. (Jashki et al.2009; Hu et al.2009; Yang et al.2011a; Yu 2011). Ebenso gibt es andere Arbeiten, wie die in Hruschka et al. (2007), Luo und Xiong (2009) und Dash und Ong (2011) vorgestellten, die das Problem aus einem anderen Blickwinkel angehen: bei der Merkmalsauswahl, Annahme Da eine Gruppe von Clustern als eine Reihe unterschiedlicher Klassen modelliert werden kann, können sie herkömmliche Methoden zur überwachten Merkmalsauswahl auf die Daten anwenden.

おすすめ

転載: blog.csdn.net/aab11235/article/details/121339083