Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl – Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl (3)

Multivariate Filtermethoden

Multivariate Filtermethoden können in drei Hauptgruppen unterteilt werden: statistische/informative, biologisch inspirierte und spektrale/sparse-lernbasierte Methoden. Wie der Name schon sagt, umfasst Ersteres UFS-Methoden, die eine Auswahl mithilfe statistischer und/oder informationstheoretischer Maße wie Varianz-Kovarianz, lineare Korrelation, Entropie, gegenseitige Information usw. durchführen. Andererseits umfasst die zweite Gruppe UFS-Methoden, die zufällige Suchstrategien basierend auf dem Schwarmintelligenz-Paradigma (Beni und Wang 1993; Dorigo und Gambardella 1997) verwenden, um eine gute Teilmenge von Merkmalen zu finden, die bestimmte Qualitätskriterien erfüllen. Schließlich umfasst die dritte Gruppe UFS-Methoden, die auf Spektralanalyse basieren (Zhao und Liu, 2011) oder Spektralanalyse mit Sparse-Learning kombinieren (El Ghaoui et al., 2011). Es ist erwähnenswert, dass einige Autoren (Chandrashekar und Sahin 2014; Ang et al. 2016) diese letzten Methoden häufig als eingebettete Methoden bezeichnen, da die Merkmalsauswahl als Teil des Lernprozesses implementiert wird, normalerweise durch Optimierung eingeschränkter Regressionsmodelle. In dieser Studie bevorzugen wir jedoch die Klassifizierung als multivariate Filterung, da das Hauptziel neben der gemeinsamen Bewertung von Merkmalen darin besteht, eine Merkmalsauswahl (oder Rangfolge) durchzuführen und nicht Clusterbezeichnungen zu finden. Darüber hinaus glauben wir, dass eingebettete Methoden als Unterklasse innerhalb der Hauptmethode (d. h. Filter, Wrapper und Mixins) betrachtet werden können, ohne die Möglichkeit der Verwendung eingebetteter Methoden in diesen drei Methoden einzuschränken.

Statistische/informationsbasierte Methoden

Eines der repräsentativsten und Referenzwerke in dieser Kategorie von FSFS (Feature Selection using Feature Similarity) ist FSFS (Feature Selection using Feature Similarity). In dieser Arbeit führen die Autoren ein statistisches Maß für Abhängigkeit/Ähnlichkeit ein, um die Redundanz von Merkmalen zu reduzieren; dieses Maß, Maximum Information Compression Index (MICI) genannt, basiert auf der Varianz-Kovarianz zwischen Merkmalen. Die Idee dieser Methode besteht darin, den ursprünglichen Merkmalssatz in mehrere Cluster aufzuteilen, sodass die Merkmale im selben Cluster sehr ähnlich sind, während die Merkmale in verschiedenen Clustern unterschiedlich sind. Das Feature-Clustering erfolgt iterativ auf der Grundlage des KNN-Prinzips wie folgt: In jeder Iteration berechnet FSFS die k-nächsten Features (unter Verwendung von MICI) für jedes Feature. Anschließend werden die Features mit der kompaktesten Teilmenge der k-nächsten Features (bestimmt durch den Abstand zum k-nächsten Feature) ausgewählt und ihre k-nächsten Features verworfen. Wiederholen Sie diesen Vorgang für die verbleibenden Features, bis alle Features ausgewählt oder verworfen sind. Einer ähnlichen Idee folgend schlugen Li et al. (2007) eine hierarchische Methode namens Mitra's+AIF vor, die redundante und irrelevante Merkmale entfernt. Diese Methode entfernt redundante Merkmale mithilfe eines von Mitra et al. (2002) entwickelten Algorithmus. Anschließend werden die Merkmale anhand einer exponentiellen Entropiemetrik nach ihrer Relevanz eingestuft. Anschließend werden entsprechend der im vorherigen Schritt erhaltenen Merkmalsrangfolge relevante nicht-redundante Merkmalsteilmengen mithilfe des Fuzzy-Bewertungsindex FFEI (Pal et al. 2000) in Kombination mit einer Vorwärtsauswahlsuche ausgewählt.

Haindl et al. (2006) und Ferreira und Figueiredo (2012) schlugen jeweils zwei weitere multivariate Filtermethoden vor, die auf statistischen Maßen basieren. Bei Haindl et al. (2006) besteht die Idee darin, alle Interkorrelationen aller Merkmalspaare auszuwerten. Anschließend wird das Merkmal mit der größten durchschnittlichen Kreuzkorrelation mit allen anderen Merkmalen entfernt und der Vorgang für die verbleibenden Merkmale wiederholt, bis die zuvor vom Benutzer angegebene Anzahl an Merkmalen erreicht ist.

RRFS (Relevance Redundancy Feature Selection)

Unterdessen schlugen Ferreira und Figueiredo (2012) eine filterüberwachte/unüberwachte Merkmalsauswahlmethode namens RRFS (Relational Redundant Feature Selection) vor, die Merkmale in zwei Schritten auswählt. Bei dieser Methode werden die Merkmale zunächst nach einem Korrelationsmaß (Varianz für die unbeaufsichtigte Version und Fisher-Verhältnis oder gegenseitige Information für die überwachte Version) eingestuft. Anschließend werden die Merkmale in einem zweiten Schritt mithilfe eines Merkmalsähnlichkeitsmaßes in der im vorherigen Schritt generierten Reihenfolge bewertet, um die Redundanz zwischen ihnen zu quantifizieren. Anschließend werden die Top- p- Features mit der geringsten Redundanz ausgewählt .

Der Idee folgend, statistische Maße zur Merkmalsauswahl zu verwenden, führte Talavera (2000) eine multivariate Filtermethode ein, die auf Abhängigkeitsmaßen basiert. Im Gegensatz zu früheren Methoden schlägt diese Methode vor, dass bei fehlenden Kategorien relevante Merkmale diejenigen sind, die stark mit anderen Merkmalen korrelieren; während diejenigen, die weniger mit anderen Merkmalen korrelieren, weniger wahrscheinlich eine wichtige Rolle im Clustering-Prozess spielen. irrelevantes Merkmal). Diese Spekulation basiert auf der Beobachtung, dass zusammenhängende und unterschiedliche Cluster dazu neigen, Korrelationen zwischen Merkmalen zu erfassen (Fisher 1987). Daher besteht unsere Idee darin, jedes einzelne Merkmal fi anhand des oben genannten Abhängigkeitsmaßes zu bewerten . Wählen Sie dann die p- Merkmale mit der höchsten Korrelation aus .

Eine weitere auf multivariater Statistik basierende Filtermethode wurde von Yen et al. (2010) eingeführt. In dieser Arbeit besteht das Ziel darin, redundante Features mithilfe des Konzepts der Minimierung von Feature-Abhängigkeiten zu entfernen. Die Idee besteht darin, unabhängige Merkmale (Korrelationen) zu finden, indem man einen Satz von Koeffizienten so wählt, dass die lineare Korrelation der Merkmale (dargestellt durch den Fehlervektor E ) nahe Null liegt. In jeder Iteration wird das Feature mit dem größten absoluten Koeffizienten (das mit dem kleinsten ||E||2 ) entfernt und die Auswirkung seiner Entfernung wird aktualisiert. Dieser Prozess wird wiederholt, bis alle verbleibenden Fehlervektoren E kleiner als ein vom Benutzer festgelegter Schwellenwert sind.

MPMR (Funktionsauswahl basierend auf maximaler Projektion und minimaler Redundanz)

Ein anderer statistikbasierter Ansatz hat eine ähnliche Idee und heißt MPMR. Die Idee besteht darin, eine Teilmenge von Features so auszuwählen, dass alle ursprünglichen Features mit minimalem Rekonstruktionsfehler in einen Feature-Unterraum projiziert werden (unter Anwendung einer linearen Transformation). Um die Redundanz niedrig zu halten, wurde in dieser Arbeit außerdem ein Begriff zur Quantifizierung der Redundanz zwischen Merkmalen hinzugefügt (Redundanzrate unter Verwendung des Pearson-Korrelationskoeffizienten).

Schließlich führten Dash et al. (2002) einen multivariaten informationsbasierten Ansatz ähnlich wie Dash et al. (1997) ein. Bei diesem in Dash et al. (1997) beschriebenen Ansatz besteht die Grundidee darin, distanzbasierte Ähnlichkeitsentropie zur Auswahl von Merkmalen zu verwenden. Der Hauptunterschied zwischen (Dash et al. 1997) und (Dash et al. 2002) besteht darin, dass Dash et al. (2002) einige Gewichtungsparameter zum Entropiemaß hinzugefügt haben und das Entropiemaß als Exponentialfunktion anstelle einer Zahl umformuliert wurde Funktion. Darüber hinaus verwenden die Autoren eine Vorwärtsauswahlsuche, um eine Teilmenge von Merkmalen auszuwählen.
Bioinspiriert

Kürzlich wurden mehrere biomimetische, unbeaufsichtigte Methoden zur Merkmalsauswahl vorgeschlagen, die auf dem Schwarmintelligenz-Paradigma basieren (Beni und Wang 1993; Dorigo und Gambardella 1997).

UFSACO (Unüberwachte Merkmalsauswahl basierend auf Ameisenkolonie-Optimierung)

In Tabakhi et al. (2014) wurde eine der ersten auf dieser Idee basierenden Methoden namens UFSACO (Unsupervised Feature Selection Based on Ant Colony Optimization) vorgestellt. Sein Hauptziel besteht darin, eine Teilmenge von Merkmalen mit geringer Ähnlichkeit (geringer Redundanz) zwischen Merkmalen auszuwählen. In dieser Arbeit wird der Suchraum als vollständiger ungerichteter Graph dargestellt, wobei Knoten Merkmale darstellen und die Gewichte von Kanten Ähnlichkeiten zwischen Merkmalen darstellen. Diese Ähnlichkeit wird mithilfe der Kosinus-Ähnlichkeitsfunktion berechnet. Die Idee der Autoren ist, dass, wenn zwei Merkmale ähnlich sind, diese Merkmale redundant sind. Jeder Knoten im Diagramm verfügt über einen erwarteten Wert, der als Pheromon bezeichnet wird und vom Agenten (der Ameise) basierend auf seinem aktuellen Wert, einer vorab festgelegten Abklingrate und der Häufigkeit, mit der der Agent ein bestimmtes Merkmal auswählt, aktualisiert wird. Der Agent durchläuft das Diagramm iterativ und bevorzugt dabei hohe Pheromonwerte und geringe Ähnlichkeiten, bis ein vorab festgelegtes Stoppkriterium (Anzahl der Iterationen) erreicht ist. Abschließend wird das Merkmal mit dem höchsten Pheromonwert ausgewählt. Daher ist es wünschenswert, eine Teilmenge von Merkmalen mit geringer Redundanz auszuwählen. Weitere Folgemethoden, die auf derselben Idee basieren, umfassen MGSACO (Ant Colony Optimization-based Microarray Gene Selection) (Tabakhi et al. 2015), RR-FSACO (Ant Colony Optimization-based Relevant Redundant Feature Selection) (Tabakhi und Moradi 2015). und UPFS (Unsupervised Probabilistic Feature Selection Using Ant Colony Optimization) (Dadaneh et al. 2016). In MGSACO und RR-FSACO messen sie neben der Quantifizierung der Merkmalsredundanz wie bei früheren Methoden auch die Korrelation jedes Merkmals anhand der Varianz (Theodoridis und Koutroumbas 2008b). Daher besteht das Hauptziel all dieser Methoden darin, Merkmale auszuwählen, die die Redundanz minimieren und gleichzeitig die Korrelation maximieren. Unterdessen besteht die Idee von UPFS darin, nicht-redundante Merkmale auszuwählen, aber Pearson-Korrelation anstelle von Kosinusähnlichkeit zu verwenden.
Basierend auf spektralem/sparse-Learning

Garcia Garcia und SantosRodriguez (2009), Liu et al. (2009b), Niijima und Okuno (2009) führten einige multivariate Methoden ein, die auf einer aus SPEC- und Laplace-Scores abgeleiteten Spektralanalyse basieren.

mR-SP (Minimum-Redundancy SPectral Feature Selection)

Garcia Garcia und Santos Rodriguez (2009) schlugen eine Merkmalsauswahlmethode namens mR-SP (Minimum Redundancy Spectral Feature Selection) vor, die kanonisches Ranking und Optimierungskriterien für minimale Redundanz kombiniert (Peng et al., 2005). Die Grundidee dieser Methode besteht darin, eine Möglichkeit zur Steuerung der Merkmalsredundanz in SPEC hinzuzufügen, indem eine Bewertungsmetrik eingeführt wird, die die Ähnlichkeit jedes Merkmalspaars durch eine modifizierte Kosinus-Ähnlichkeitsfunktion quantifiziert.

Während in Liu et al. (2009b) eine Methode entwickelt wurde, die Laplace-Brüche mit der in Dash et al. (2002) eingeführten Distanzentropie kombiniert. Die Methode wählt eine Teilmenge von Features basierend auf einer Rangfolge aus, die durch Laplace-Scores (unter Verwendung eines Entropiemaßes) erstellt wird.

LLDA-RFE (Laplace-lineare Diskriminanzanalyse-basierte rekursive Merkmalseliminierung)

Ebenso schlugen Niijima und Okuno (2009) eine Methode namens LLDA-RFE (Recursive Feature Elimination Based on Laplace Linear Discriminant Analysis) vor. Diese Methode erweitert die lineare Diskriminanzanalyse (LDA) (Fukunaga 1990) auf die unbeaufsichtigte Situation, indem sie die Ähnlichkeit zwischen Objekten ausnutzt; diese Erweiterung wird LLDA genannt. Die Idee besteht darin, Features mit dem kleinsten Absolutwert des LLDA-Diskriminanzvektors rekursiv zu entfernen, um Features zu identifizieren, die wahrscheinlich Cluster in der Stichprobe aufweisen. Laut den Autoren ist LLDA-RFE eng mit dem Laplace-Score verwandt; der Hauptunterschied besteht darin, dass LLDA-RFE ein multivariater Ansatz ist, der die Auswahl von Merkmalen ermöglicht, die in Kombination zur Differenzierung beitragen.

Andere multivariate Merkmalsauswahlmethoden, die in den letzten Jahren aufgrund ihrer guten Leistung und Interpretierbarkeit Beachtung gefunden haben (Li et al., 2016), sind Methoden, die auf einer Kombination aus Spektralanalyse und Sparse-Learning basieren (El Ghaoui et al., 2011). Sparse Learning bezieht sich auf Methoden, die einen Kompromiss zwischen Maßen für die Güte der Anpassung und der daraus resultierenden Sparsität anstreben (El Ghaoui et al. 2011). Beispiele für frühe Methoden, die auf dieser Idee basieren, sind: MCFS (Cai et al. 2010), MRSF (Zheng et al. 2010), UDFS (Yang et al. 2011b), NDFS (Li et al. 2012), JELSR (Hou et al . al. 2011, 2014), SPFS (Zhao et al. 2013), CGSSL (Li et al. 2014b), RUFS (Qian und Zhai 2013) und RSFS (Shi et al. 2015).

MCFS (Cai et al. 2010) und MRSF (Zheng et al. 2010) sind die frühesten Merkmalsauswahlmethoden für unbeaufsichtigtes multivariates spektrales/sparses Lernen.

MCFS (Multi-Cluster Feature Selection) besteht aus drei Schritten: (1) Spektralanalyse, (2) Lernen mit spärlichen Koeffizienten und (3) Merkmalsauswahl. Im ersten Schritt wird eine Spektralanalyse (Luxburg 2007) des Datensatzes durchgeführt, um die Clusterstruktur der Daten zu ermitteln. Dann misst MCFS in einem zweiten Schritt die Merkmalsbedeutung durch ein Regressionsmodell mit l1- Schließlich wählt MCFS im dritten Schritt nach der Lösung des Regressionsproblems d Merkmale basierend auf dem höchsten Absolutwert der durch das Regressionsproblem erhaltenen Koeffizienten aus.

MRSF (Minimierung der Feature-Redundanz für die Auswahl spektraler Features)

Andererseits wertet MRSF (Minimizing Feature Redundancy for Spectral Feature Selection) alle Features aus, um redundante Features zu eliminieren. Die Idee besteht darin, das Merkmalsauswahlproblem als Regressionsproblem mit mehreren Ausgaben zu formulieren (Friedman et al. 2001) und die Auswahl durch Anwenden der l2,1-Norm (Argyriou et al. 2008) anstelle der l1-Norm durchzuführen, um Sparsity zu erzwingen . Außerdem wird in dieser Arbeit ein effizienter Algorithmus vorgeschlagen, der auf der Nesterov-Methode (Liu et al., 2009a) basiert, um das Regressionsproblem zu lösen. Die endgültige Merkmalsteilmenge wird entsprechend dem Wert der gewichteten W- Matrix ausgewählt.

UDFS (Unsupervised Discriminative Feature Selection algorithm)

UDFS (Yang et al., 2011b) (Unsupervised Discriminative Feature Selection Algorithm) folgt einer ähnlichen Idee wie MRFS, um eine Merkmalsauswahl durchzuführen, indem sowohl die Streumatrix als auch die in der Merkmalskorrelation enthaltenen Unterscheidungsinformationen ausgenutzt werden. Diese Methode schlägt vor, das Merkmalsauswahlproblem unter Berücksichtigung der Verfolgungskriterien des Regressionsproblems zu lösen (Fukunaga 1990). Darüber hinaus fügt UDF dem Regressionsproblem einige zusätzliche Einschränkungen hinzu und schlägt einen effizienten Algorithmus zu seiner Optimierung vor. UDFS ordnet jedes Feature entsprechend dem entsprechenden Gewichtungswert in absteigender Reihenfolge an und wählt das geordnete Feature aus.

JELSR (Joint Embedding Learning und Sparse Regression)

Ein weiterer Ansatz, der viele Gemeinsamkeiten mit MRSF aufweist, ist JELSR (Joint Embedding Learning and Sparse Regression) (Hou et al. 2011). JELSR wendet die gleiche Zielfunktion wie MRSF an, jedoch nur bei der Konstruktion von Laplace-Graphen, da in dieser Arbeit ein lokales lineares Näherungsgewicht (Roweis und Saul 2000) verwendet wird, um die lokale Ähnlichkeit zu messen. JELSR wendet die gleiche Zielfunktion wie MRSF an, jedoch nur bei der Konstruktion von Laplace-Graphen, da in dieser Arbeit ein lokales lineares Näherungsgewicht (Roweis und Saul 2000) verwendet wird, um die lokale Ähnlichkeit zu messen. JELSR verwendet dieselbe Zielfunktion wie MRSF und unterscheidet sich nur in der Konstruktion des Laplace-Graphen, da in dieser Arbeit lokale lineare Approximationsgewichte (Roweis und Saul 2000) verwendet werden, um die Konstruktion der Laplace-Graphen zu messen. Eine spätere Verallgemeinerung von JELSR wurde von Hou et al. (2014) eingeführt, wo ein einheitliches Einbettungslern- und Sparse-Regressions-Framework vorgeschlagen wurde, anstatt Laplace-Graphen zur Beschreibung der Struktur hochdimensionaler Daten zu verwenden und dann eine Regression anzuwenden. Darüber hinaus wird in dieser Arbeit eine einheitliche Perspektive zum Verständnis und Vergleich vieler beliebter unbeaufsichtigter Methoden zur Merkmalsauswahl bereitgestellt. Eine aktuelle Arbeit im Zusammenhang mit JELSR ist USFS (Wang et al., 2016) (Unsupervised Spectral Feature Selection Using L1-Norm Maps). Die Idee besteht darin, Spektralclustering und L1-Normkarten zu verwenden, um diskriminierende Merkmale auszuwählen. Der Hauptunterschied zwischen USFS und JELSR besteht in der Methode zum Erstellen von Laplace-Graphen. JELSR verwendet lokale lineare Näherungsgewichte zum Erstellen von Diagrammen, während USFS ein neues l1-Norm-Graphen verwendet.

NDFS (Nonnegative Discriminative Feature Selection)

Ein weiterer Ansatz im Zusammenhang mit der oben genannten Arbeit ist NDFS (Non-Negative Discriminative Feature Selection) (Li et al., 2012). NDFS führt wie UDFS und MRFS die Merkmalsauswahl mithilfe diskriminierender Informationen und Merkmalskorrelation in einem einheitlichen Framework durch. Erstens verwendet NDFS die Spektralanalyse, um Pseudoklassenbezeichnungen zu lernen (definiert als nicht negative Realwerte). Anschließend wurde ein Regressionsmodell mit l2,1-Norm-Regularisierung (Argyriou et al. 2008) erstellt und durch einen speziellen Löser optimiert. Laut dem Autor besteht der Hauptunterschied zwischen NDFS und UDFS darin, dass NDFS dem Regressionsproblem eine Nicht-Negativitätsbeschränkung hinzufügt, da NDFS durch Entfernen dieser Beschränkung zu UDFS wird.

NSCR (Nichtnegative Spektralanalyse mit eingeschränkter Redundanz)

Eine spätere Modifikation von NDFS wurde von denselben Autoren in Li und Tang (2015) vorgeschlagen, wo eine Methode namens NSCR (Constrained Redundancy Non-Negative Spectral Analysis) eingeführt wurde. Der Hauptunterschied zu NDFS besteht darin, dass NSCR einen Mechanismus zur expliziten Steuerung der Redundanz hinzufügt.

FSLR (Feature-Teilmenge mit Sparsity und Low Redundancy)

Basierend auf der NDFS-Idee von Han et al. (2015) wird eine Methode namens FSLR (Sparse Low Redundancy Feature Subset) vorgeschlagen. FSLR verwendet Spektralanalyse zur Darstellung niedrigdimensionaler Daten und führt einen neuen Regularisierungsterm in die Zielfunktion ein, der eine Nichtnegativitätsbeschränkung aufweist. Darüber hinaus wird ein iterativer Multiplikationsalgorithmus zur effizienten Lösung eingeschränkter Optimierungsprobleme vorgeschlagen.

CDL-FS (Couple Dictionary Learning Feature Selection)

Zhu et al. (2016) schlugen einen anderen UFS-Ansatz namens CDL-FS (Feature Selection for Coupled Dictionary Learning) vor, der gekoppelte Analyse-/Synthesewörterbücher anstelle der Spektralanalyse verwendet, um Pseudoklassenbezeichnungen zu lernen. Die allgemeine Idee besteht darin, Wörterbuchlernen (Gu et al., 2014) zu verwenden, um die Clusterstruktur der Daten zu modellieren. Die Merkmalsauswahl wird durch Anwenden der l2,p-norm ( 0 < p ≤ 1 )-Regularisierung der Merkmalsgewichtsmatrix auf das Wörterbuch-Lernmodell erreicht.

SOGFS (Structured Optimal Graph Feature Selection)

Nie et al. (2016) schlugen eine auf Sparse-Learning basierende Methode namens SOGFS (Structured Optimal Graph Feature Selection) vor, die gleichzeitig Merkmalsauswahl und lokales Strukturlernen durchführt. SOGFS lernt adaptiv die lokale Mannigfaltigkeitsstruktur, indem es eine Ähnlichkeitsmatrix in ein spärliches Optimierungsmodell einführt, das auf Verlustfunktion und regulierter l2,1-Norm-Minimierung basiert (Nie et al. 2010). Sobald das vorgeschlagene Modell optimiert ist, werden die Merkmale entsprechend ihrer entsprechenden Gewichtung ausgewählt.

SPFS (Ähnlichkeitserhaltende Funktionsauswahl)

Zhao et al. (2013) führten eine weitere Merkmalsauswahlmethode für Sparse Learning ein, SPFS (Similarity Preserving Feature Selection). Bei dieser Methode besteht die Idee darin, eine Mehrfachausgaberegression (Friedman et al. 2001) mit l2,1-Norm-Einschränkungen zu verwenden, um die d- Merkmale auszuwählen , die die Objektähnlichkeit am besten bewahren . Darüber hinaus zeigen die Autoren in dieser Arbeit die Beziehung zwischen der vorgeschlagenen Methode und vielen anderen hochmodernen überwachten und unüberwachten Methoden zur Merkmalsauswahl. Die Autoren zeigen, dass viele bestehende Merkmalsbewertungskriterien unter einer allgemeinen Formulierung vereinheitlicht werden können, bei der die Korrelation von Merkmalen quantifiziert wird, indem ihre Fähigkeit gemessen wird, die Ähnlichkeit paarweiser Stichproben zu bewahren, die durch eine vordefinierte Ähnlichkeitsmatrix spezifiziert werden.

CGSSL (Clustering-Guided Sparse Structural Learning)

Ebenso schlugen Li et al. (2014b) eine andere Methode namens CGSSL (Cluster-Guided Sparse Structured Learning) vor. In diesem Artikel schlagen wir eine Methode zur Merkmalsauswahl vor, die auf nichtnegativer Spektralanalyse und spärlichem Strukturlernen basiert. Die Idee besteht darin, Clustering-Metriken (gelernt durch nicht-negatives spektrales Clustering) in linearen Modellen zu verwenden, um Beschriftungsinformationen für das Strukturlernen bereitzustellen. Darüber hinaus zeigen die Autoren in diesem Artikel, ähnlich wie bei den vorherigen Methoden, die Beziehung zwischen der eingeführten Methode und mehreren Merkmalsauswahlmethoden, einschließlich SPFS, MCFS, UDFS und NDFS.

RUFS (Robust Unsupervised Feature Selection)

Um das Problem von Ausreißern oder Rauschen in vielen Datensätzen zu lösen, schlugen Qian und Zhai (2013) eine Filtermethode namens RUFS (Robust Unsupervised Feature Selection) vor. Ziel ist es, ein robustes Clustering und eine robuste Funktionsauswahl zu erreichen. Im Gegensatz zu den oben genannten Methoden zur unbeaufsichtigten Merkmalsauswahl (wie MCFS, UDFS und NDFS) lernt RUFS Pseudo-Cluster-Labels über lokale Lernregularisierung und robuste nicht-negative Matrixfaktorisierung (Kong et al. 2011). Die Idee besteht darin, Beschriftungen durch robuste gemeinsame l2,1-Normminimierung während der Merkmalsauswahl zu lernen. In dieser Arbeit schlagen die Autoren außerdem einen iterativen BFGS-Algorithmus mit endlichem Speicher (Liu und Nocedal 1989) vor, um Optimierungsprobleme effizient zu lösen und RUFS für praktische Anwendungen geeignet zu machen.

RUFSM (Robuste unbeaufsichtigte Merkmalsauswahl mittels Matrixfaktorisierung)

In Anlehnung an ähnliche Ideen wie RUFS schlugen Du et al. (2017) eine Methode namens RUFSM (Robust Unsupervised Feature Selection via Matrix Factorization) vor. RUFSM wählt Merkmale mithilfe der l2,1-Norm aus, um gleichzeitig eine diskriminierende Merkmalsauswahl und ein robustes Clustering durchzuführen. Der Hauptunterschied zwischen RUFS und RUFSM besteht darin, dass letzteres das Clusterzentrum als objektives Konzept und nicht als Pseudobezeichnung der Daten behandelt.

RSFS (Robust Spectral Learning Framework für unbeaufsichtigte Funktionsauswahl)

Ein weiterer Ansatz zur Lösung des Problems verrauschter Features und Ausreißer ist RSFS (Robust Spectral Learning Framework for Unsupervised Feature Selection) (Shi et al., 2015). RSFS wählt Features aus, indem es einen Diagrammeinbettungsschritt (unter Verwendung der Kernel-Regression) anwendet, um Clustering-Strukturen effizient zu lernen, und verarbeitet Rauschen und Ausreißer durch spärliche spektrale Regression. Die Idee besteht darin, Laplace-Graphen zu erstellen und dabei die jedem Objekt über die lokale Kernel-Regression zugewiesenen Gewichte zu berücksichtigen und effiziente iterative Algorithmen zu entwickeln, um das vorgeschlagene Optimierungsproblem zu lösen.

In den letzten Jahren wurden einige Arbeiten in der Kategorie Sparse Learning/Spektralanalyse vorgeschlagen, diese Arbeiten werden jedoch unter einer neuen Perspektive namens Feature Self Representation durchgeführt . Diesen Methoden liegt die Annahme zugrunde, dass jedes Merkmal durch eine lineare Kombination verwandter Merkmale und einer Koeffizientenmatrix (die als Merkmalsgewichte verwendet werden kann) mit einer Sparsity-Beschränkung gut angenähert werden kann.

RSR (Regularized Self-Representation-Modell für die unbeaufsichtigte Merkmalsauswahl)

RSR (Zhu et al., 2015) (Regularized Self-Representation Model for Unsupervised Feature Selection) war das erste Modell, das diese Idee nutzte. In dieser Arbeit argumentieren die Autoren, dass ein wichtiges Merkmal an der Darstellung der meisten anderen Merkmale beteiligt ist. Die Merkmalsauswahl minimiert den Selbstdarstellungsfehler, indem sie die Residuen mithilfe der l2,1-Norm charakterisiert und die repräsentativsten Merkmale (Merkmale mit hohen Merkmalsgewichten) auswählt. Zhu et al. (2017) schlugen eine erweiterte Version von RSR vor, bei der die Autoren die l2,p-Norm-Regularisierung anstelle der l2,1-Norm verwenden, um Merkmale auszuwählen, wobei Merkmale mit kleinen p-Werten ( 0 ≤ p < 1 ) hervorgehoben werden ).

GRNSR (Graph Regularized Non-Negative Self Representation)

Ein weiterer Ansatz im Zusammenhang mit RSR ist GRNSR (Graph Regularized Non-Negative Self-Representation) (Yi et al., 2016). Wie RSR nutzt GRNSR die Selbstdarstellungsfähigkeit von Features, der Unterschied besteht jedoch darin, dass GRNSR auch die geometrische Struktur der Daten mithilfe eines nachbarschaftsgewichteten Diagramms (Darstellungsdiagramm mit niedrigem Rang) berücksichtigt. In GRNSR wird jedes Merkmal zunächst durch alle anderen Merkmale durch eine nicht negative Linearkombination dargestellt. Anschließend wird eine Ähnlichkeitsmatrix erstellt, um die lokalen Strukturinformationen von Objekten offenzulegen, und das Problem der nichtnegativen kleinsten Quadrate (NNLS) wird als neuer Begriff in das endgültige nichtnegative eingeschränkte Regressionsproblem mit der l2,1-Norm aufgenommen. Sobald das Modell (Regressionsproblem) optimiert ist, werden anschließend die Top- d- Merkmale mit dem höchsten Gewicht ausgewählt.

Weitere neuere Methoden, die unter der Perspektive der Selbstdarstellung entwickelt wurden, umfassen SPNFSR (Zhou et al. 2017), LRSL (Wang und Wang 2017), DSRMR (Tang et al. 2018a), l2,1-UFS (Tang et al. 2018b) und Lu et .al

SPNFSR (Structure-Pserving Non-Negative Feature Self-Representation)、l 2,1 -UFS ( l 2,1-basierte graphenregulierte UFS-Methode) 、 DSRMR (Dual Self-Representation and Manifold Regularization)

SPNFSR (strukturerhaltende nicht-negative Merkmalsselbstdarstellung), l2,1-UFS (l2,1-basierte Graph-Regularisierungs-UFS-Methode) und DSRMR (duale Selbstdarstellung und Mannigfaltigkeits-Regularisierung) durch Optimierung der l2,1-Norm- basiertes Modell, das sowohl die Selbstdarstellung als auch die strukturerhaltenden Fähigkeiten von Features berücksichtigt. Die allgemeine Idee dieser Methoden besteht darin, das Modell (Zielfunktion) unter Berücksichtigung von drei Aspekten zu optimieren:

(1) Merkmalselbstdarstellung unter Verwendung der l2,1-Norm.

(2) Die lokale Mannigfaltigkeitsgeometrie der Originaldaten verwendet einen graphbasierten Norm-Regularisierungsterm.

(3) Ein Regularisierungsterm W, der die Bedeutung jedes Merkmals widerspiegelt . Das Optimierungsproblem wird durch einen effizienten iterativen Algorithmus gelöst. Im letzten Schritt wird jedes Feature in absteigender Reihenfolge nach dem entsprechenden W- Wert sortiert und die besten p Features werden ausgewählt.

LRSL (Low-Rank-Approximation und Strukturlernen für die unbeaufsichtigte Merkmalsauswahl)

Im Gegensatz zu früheren Methoden verwendet LRSL (Low-Rank Approximation and Structure Learning for Unsupervised Feature Selection) die Frobenius-Norm anstelle der l2,1-Norm. Schließlich schlägt die von Lu et al. (2018) eingeführte Methode eine Zielfunktion zur Modellierung des Merkmalsauswahlproblems durch eine lineare Kombination aller Merkmale im ursprünglichen Merkmalsraum vor und berücksichtigt die lokale Mannigfaltigkeitsstruktur der Daten mithilfe einer Objektähnlichkeitsmatrix. Sobald das Modell konvergiert, werden die Merkmale entsprechend ihrer entsprechenden Gewichtung eingestuft und die besten p- Merkmale werden ausgewählt.

Kürzlich wurde vorgeschlagen, lokal lineare Einbettungen (LLE) und nicht-konvexe Sparse-Regularisierungsfunktionen in Sparse-Learning-Modellen zu verwenden. In Luo et al. (2018) wird eine neue unbeaufsichtigte Methode zur Merkmalsauswahl vorgeschlagen, die LLE (Roweis und Saul 2000) verwendet, um die Mannigfaltigkeitsstruktur der Daten zu modellieren. Die Idee besteht darin, intrinsische lokale geometrische Merkmale zu charakterisieren, indem sie auf LLE-Graphen anstelle typischer paarweiser Ähnlichkeitsmatrizen und struktureller Regularisierungsterme basieren. Für jedes Feature wird eine Rekonstruktionsbewertung auf Feature-Ebene basierend auf der LLE-Karte definiert und die endgültige Feature-Teilmenge wird basierend auf dieser Bewertung ausgewählt. Andererseits schlugen Shi et al. (2018) ein nicht-konvexes, spärliches Lernmodell vor. Die Idee besteht darin, die Merkmalsauswahl durch ein orthogonales, nicht negativ beschränktes, spärliches Regularisierungsmodell unter Verwendung einer neuen Norm namens l2,1-2 durchzuführen, die als Differenz zwischen l2,1 und der Frobenius-Norm definiert ist. Um dieses Modell effizient zu lösen, wird außerdem ein iterativer Algorithmus vorgeschlagen, der auf der Alternating Direction Multiplier Method (ADMM) (Boyd et al. 2011) basiert.

Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl – Ein Überblick über unbeaufsichtigte Methoden zur Merkmalsauswahl (3)

Guess you like