A review of unsupervised feature selection methods-无监督特征选择方法综述（三）

Multivariate filter methods

多变量过滤方法可分为三个主要组：统计/信息，生物启发和基于频谱/稀疏学习的方法。顾名思义，前者包括使用统计和/或信息论度量（如方差-协方差、线性相关、熵、互信息等）执行选择的UFS方法。另一方面，第二组包括的UFS方法，该方法使用基于群体智能范式的随机搜索策略（Beni和Wang 1993；Dorigo和Gambardella 1997），以找到满足某些质量标准的良好特征子集。最后，第三组包括基于光谱分析（Zhao和Liu，2011年）或光谱分析与稀疏学习相结合的UFS方法（El Ghaoui等人，2011年）。值得注意的是，一些作者（Chandrashekar和Sahin 2014；Ang et al.2016）经常将这些最后的方法称为嵌入式方法，因为特征选择是作为学习过程的一部分实现的，通常通过优化约束回归模型来实现。然而，在本研究中，我们更倾向于将其分类为过滤多变量，因为除了联合评估特征外，主要目标是进行特征选择（或排序），而不是找到聚类标签。此外，我们认为嵌入式方法可以被视为主要方法（即过滤器、包装器和混合）中的一个子类，而不妨碍在这三种方法中使用嵌入式方法的可能性。

Statistical/information based methods

FSFS (Feature Selection using Feature Similarity)这一类中最具代表性和参考价值的著作之一是FSFS（使用特征相似性的特征选择）。在这项工作中，作者引入了依赖/相似性的统计度量来减少特征冗余；这种被称为最大信息压缩指数（MICI）的度量基于特征之间的方差-协方差。该方法的思想是将原始特征集划分为多个簇，使得同一簇中的特征高度相似，而不同簇中的特征则不同。特征聚类是基于KNN原理迭代完成的，如下所示：在每次迭代中，FSFS计算每个特征的k-最近特征（使用MICI）。然后，选择具有k个最近特征的最紧凑子集的特征（由到k-nearest中最远特征的距离确定），并丢弃其k个最近特征。对其余特征重复此过程，直到拾取或丢弃所有特征。根据类似的想法，Li等人（2007年）提出了一种称为Mitra’s+AIF的分层方法，该方法去除了冗余和不相关的特征。该方法使用Mitra等人（2002）开发的算法去除冗余特征。然后，使用指数熵度量根据特征的相关性对特征进行排序。然后，根据在前一步骤中获得的特征排序，使用模糊评价指数FFEI（Pal等人2000）结合正向选择搜索选择相关的非冗余特征子集。

Haindl等人（2006年）和Ferreira及Figueiredo（2012年）分别提出了其他两种基于统计测度的多元滤波方法。在Haindl等人（2006年）中，想法是评估所有特征对的所有相互关联。然后，移除与所有其他特征具有最大平均互相关的特征，并对其余特征重复该过程，直到达到用户先前指定的多个特征。

RRFS (Relevance Redundancy Feature Selection)

同时，Ferreira和Figueiredo（2012）提出了一种过滤器监督/非监督特征选择方法，称为RRFS（关联冗余特征选择），该方法分两步选择特征。在该方法中，首先，根据相关性度量（无监督版本的方差和有监督版本的Fisher比率或互信息）对特征进行排序。然后，在第二步中，按照前一步中生成的顺序，使用特征相似性度量来评估特征，以量化它们之间的冗余。然后，选择冗余度最低的前p个特征。

根据使用统计度量进行特征选择的思想，Talavera（2000）介绍了一种基于依赖度量的多元过滤方法。与之前的方法不同，该方法提出，在没有类别的情况下，相关特征是那些与其他特征高度相关的特征；而那些与其他特征相关性较低的特征不太可能在聚类过程中发挥重要作用（无关特征）。这一推测基于这样一个观察结果，即内聚的和不同的集群倾向于捕获特征间的相关性（Fisher 1987）。因此，我们的想法是通过上述依赖性度量来评估每个单独的特征fi。然后，选择相关性最高的p个特征。

Yen等人（2010年）介绍了另一种基于多元统计的过滤方法。在这项工作中，目标是使用最小化特征依赖的概念去除冗余特征。其思想是通过选择一组系数来寻找独立的特征（相关），使得特征的线性相关性（由误差向量E表示）接近于零。在每次迭代中，具有最大绝对系数的特征（具有最小||E||2的特征）被移除，并且其移除的效果被更新。迭代该过程，直到所有剩余的错误向量E小于用户固定的阈值。

MPMR (feature selection based on Maximum Projection and Minimum Redundancy)

另一种基于统计的方法具有类似的思想，称为MPMR。其思想是选择一个特征子集，使所有原始特征以最小重建误差投影到一个特征子空间（应用线性变换）。此外，在这项工作中，为了保持低冗余，增加了一个量化特征间冗余的术语（使用皮尔逊相关系数的冗余率）。

最后，Dash等人（2002年）介绍了一种类似于Dash等人（1997年）的基于多元信息的方法。在这种方法中，如Dash等人（1997年）所述，基本思想是使用基于距离的相似度熵来选择特征。（Dash et al.1997）和（Dash et al.2002）之间的主要区别在于，Dash et al.（2002）增加了熵测度的一些加权参数，并且熵测度被重新表示为指数函数而不是对数函数。此外，作者使用正向选择搜索选择特征子集。
Bio-inspired

最近，人们提出了几种基于群体智能范式的仿生无监督特征选择方法（Beni和Wang 1993；Dorigo和Gambardella 1997）。

UFSACO (Unsupervised Feature Selection based on Ant Colony Optimization)

在Tabakhi等人（2014年）中，介绍了基于此思想的首批方法之一，称为UFSACO（基于蚁群优化的无监督特征选择）。其主要目标是选择特征之间具有低相似性（低冗余）的特征子集。在这项工作中，搜索空间被表示为一个完整的无向图；其中，节点表示特征，边的权重表示特征之间的相似性。使用余弦相似性函数计算该相似性。作者的想法是，如果两个特征相似，那么这些特征是冗余的。图中的每个节点都有一个称为信息素的期望值，该值由代理（蚂蚁）根据其当前值、预先指定的衰减率和代理选择给定特征的次数进行更新。在达到预先指定的停止标准（迭代次数）之前，代理以迭代方式遍历图，偏好高信息素值和低相似度。最后，选择信息素值最高的特征。因此，期望选取具有低冗余的特征子集。基于相同思想的其他后续方法包括MGSACO（基于蚁群优化的微阵列基因选择）（Tabakhi等人2015）、RR-FSACO（基于蚁群优化的相关冗余特征选择）（Tabakhi和Moradi 2015）和UPFS（使用蚁群优化的无监督概率特征选择）（Dadaneh等人2016）。在MGSACO和RR-FSACO中，除了像前面的方法一样量化特征冗余外，他们还通过方差测量每个特征的相关性（Theodoridis和Koutroumbas 2008b）。因此，所有这些方法的主要目标是选择最小化冗余同时最大化相关性的特征。同时，UPFS的想法是挑选非冗余特征，但使用皮尔逊相关性而不是余弦相似性。
Spectral/Sparse Learning based

Garcia Garcia和SantosRodriguez（2009年）、Liu等人（2009b）、Niijima和Okuno（2009年）介绍了一些基于光谱分析的多变量方法，这些方法源自SPEC和拉普拉斯评分。

mR-SP (minimum-Redundancy SPectral feature selection)

Garcia Garcia和Santos Rodriguez（2009）提出了一种称为mR-SP（最小冗余光谱特征选择）的特征选择方法，该方法结合了规范排序和最小冗余优化标准（Peng等人，2005）。该方法的基本思想是在SPEC中增加一种控制特征冗余的方法，通过引入一种评估度量，通过修改的余弦相似函数量化每对特征的相似性。

而在Liu等人（2009b）中，开发了一种将拉普拉斯分数与Dash等人（2002）中引入的距离熵相结合的方法。该方法基于拉普拉斯分数产生的排名选择特征子集（使用熵度量）。

LLDA-RFE (Laplacian Linear Discriminant Analysis-based Recursive Feature Elimination)

同样，Niijima和Okuno（2009）提出了一种称为LLDA-RFE（基于拉普拉斯线性判别分析的递归特征消除）的方法。该方法利用对象间的相似性将线性判别分析（LDA）（Fukunaga 1990）扩展到无监督情况；此扩展名为LLDA。其思想是递归地移除具有LLDA鉴别向量最小绝对值的特征，以识别可能在样本中显示簇的特征。作者认为，LLDA-RFE与拉普拉斯评分密切相关；主要区别在于LLDA-RFE是一种多变量方法，它允许选择组合起来有助于区分的特征。

其他多变量特征选择方法由于其良好的性能和可解释性（Li等人，2016年）在过去几年中受到关注，是基于频谱分析和稀疏学习相结合的方法（El Ghaoui等人，2011年）。稀疏学习是指那些在拟合优度度量和结果稀疏性（El Ghaoui et al.2011）之间寻求折衷的方法。基于这一思想的早期方法的例子有：MCFS (Cai et al. 2010), MRSF (Zheng et al. 2010), UDFS (Yang et al. 2011b) NDFS (Li et al. 2012), JELSR (Hou et al. 2011, 2014), SPFS (Zhao et al. 2013), CGSSL (Li et al. 2014b), RUFS (Qian and Zhai 2013), 和 RSFS (Shi et al. 2015).

MCFS（Cai et al.2010）和MRSF（Zheng et al.2010）是最早的无监督多元光谱/稀疏学习特征选择方法。

MCFS（Multi-Cluster Feature Selection）由三个步骤组成：（1）谱分析，（2）稀疏系数学习，（3）特征选择。第一步，对数据集进行光谱分析（Luxburg 2007），以检测数据的聚类结构。然后，在第二步中，由于已知数据的嵌入聚类结构，通过拉普拉斯矩阵的前k个特征向量，MCFS通过具有l1范数正则化的回归模型测量特征的重要性（Donoho和Tsaig，2008）。最后，在第三步，在解决回归问题后，MCFS根据通过回归问题获得的系数的最高绝对值选择d个特征。

MRSF (Minimize the feature Redundancy for Spectral Feature selection)

另一方面，MRSF（最小化光谱特征选择的特征冗余）对所有特征进行评估，以消除冗余特征。其思想是将特征选择问题表述为一个多输出回归问题（Friedman et al.2001），并通过应用范数l2,1（Argyriou et al.2008）而不是l1范数强制稀疏性来执行选择。此外，在这项工作中，还提出了一种基于Nesterov方法（Liu等人，2009年a）的有效算法来解决回归问题。根据加权W矩阵的值选择最终特征子集。

UDFS(Unsupervised Discrimi- native Feature Selection algorithm)

UDFS（Yang等人，2011b）（无监督鉴别特征选择算法）遵循与MRFS类似的思想，通过同时利用散布矩阵和特征相关性中包含的鉴别信息来执行特征选择。此方法提出要考虑到回归问题的跟踪标准（Fukunaga 1990）来解决特征选择问题。此外，UDF为回归问题增加了一些额外的约束，并提出了一种优化它的有效算法。 UDFS根据降序按照相应的权重值排列每个功能，选择排名的功能。

JELSR (Joint Embedding Learning and Sparse Regression)

与MRSF共享许多常见功能的另一种方法是JELSR（联合嵌入学习和稀疏回归）（Hou等人。2011）。 JELSR适用于与MRSF相同的目标函数，它仅在拉普拉斯图的构建中，因为在这项工作中，局部线性近似重量（Roweis和Saul 2000）用于测量构建拉普拉斯图的局部相似性。JELSR适用于与MRSF相同的目标函数，它仅在拉普拉斯图的构建中，因为在这项工作中，局部线性近似重量（Roweis和Saul 2000）用于测量构建拉普拉斯图的局部相似性。JELSR使用与MRSF相同的目标函数，并且它仅在拉普拉斯图的构造上有所不同，因为在这项工作中，使用局部线性近似权重（Roweis和Saul 2000）来度量构建拉普拉斯图的局部相似性。Hou等人（2014）介绍了JELSR的一个后来的推广，其中提出了一个统一的嵌入学习和稀疏回归框架，而不是使用拉普拉斯图来描述高维数据的结构，然后应用回归。此外，在这项工作中，为理解和比较许多流行的无监督特征选择方法提供了一个统一的视角。最近一项与JELSR相关的工作是USFS（Wang等人，2016）（使用l1-范数图的无监督光谱特征选择），其思想是使用光谱聚类和l1范数图来选择鉴别特征。USFS和JELSR的主要区别在于建立拉普拉斯图的方法；JELSR使用局部线性近似权重构造图，而USFS采用新的l1-范数图。

NDFS (Nonnegative Discrimi- native Feature Selection)

与上述工作相关的另一种方法是NDFS（非负鉴别特征选择）（Li等人，2012年）。像UDFS和MRFS这样的NDFS在一个统一的框架中利用鉴别信息和特征相关性执行特征选择。首先，NDFS使用光谱分析来学习伪类标签（定义为非负实值）。然后，建立了一个具有l2,1-范数正则化的回归模型（Argyriou et al.2008），并通过一个特殊的求解器进行了优化。作者认为，NDFS和UDFS之间的主要区别在于NDFS为回归问题添加了一个非负性约束，因为去除这个约束NDFS就变成了UDFS。

NSCR (Nonnegative Spectral analysis with Constrained Redundancy)

同一作者在Li和Tang（2015）中提出了NDFS的后期修改，其中引入了一种称为NSCR（约束冗余非负谱分析）的方法。NDFS的主要区别在于NSCR添加了一种机制来显式控制冗余。

FSLR (Feature subset with Sparsity and Low Redundancy)

根据Han等人（2015）的NDFS思想，提出了一种称为FSLR（稀疏低冗余特征子集）的方法。FSLR采用谱分析来表示低维数据，并在目标函数中引入一个新的正则化项，该项具有非负约束。此外，还提出了一种有效求解约束优化问题的迭代乘法算法。

CDL-FS (Couple Dictionary Learning Feature Selection)

Zhu等人（2016）提出了另一种称为CDL-FS（耦合字典学习特征选择）的UFS方法，该方法使用耦合分析/合成字典而不是频谱分析来学习伪类标签。总体思路是使用字典学习（Gu等人，2014年）对数据的聚类结构进行建模。特征选择是通过对字典学习模型施加特征权重矩阵的l2,p-范数（0 < p ≤ 1）正则化来实现的。

SOGFS (Structured Optimal Graph Feature Selection)

Nie等人（2016）提出了一种基于稀疏学习的方法，称为SOGFS（结构化最优图特征选择），该方法同时执行特征选择和局部结构学习。SOGFS通过在基于损失函数和正则化的l2,1-范数最小化的稀疏优化模型中引入相似矩阵，自适应学习局部流形结构（Nie et al.2010）。一旦所提出的模型得到优化，将根据相应的权重选择特征。

SPFS (Similarity Preserving Feature Selection)

Zhao等人（2013）介绍了另一种稀疏学习特征选择方法SPFS（相似度保持特征选择）。在该方法中，其思想是使用具有l2,1-范数约束的多重输出回归（Friedman et al.2001）选择最能保持对象相似性的d个特征。此外，在这项工作中，作者展示了所提出的方法与许多其他最新的有监督和无监督特征选择方法之间的关系。作者指出，许多现有的特征评估标准可以统一在一个通用公式下，其中特征的相关性通过测量它们在保留预定义相似矩阵指定的成对样本相似性方面的能力来量化。

CGSSL (Clustering- Guided Sparse Structural Learning)

同样，Li等人（2014b）提出了另一种称为CGSSL（聚类引导稀疏结构学习）的方法。本文提出了一种基于非负谱分析和稀疏结构学习的特征选择方法。其思想是在线性模型中使用聚类指标（通过非负谱聚类学习）为结构学习提供标签信息。此外，与前面的方法类似，在本文中，作者展示了引入的方法与几种特征选择方法之间的关系，包括SPFS、MCFS、UDFS和NDFS。

RUFS (Robust Unsupervised Feature Selection)

为了解决许多数据集中存在的异常值或噪声问题，钱和翟（2013）提出了一种名为RUFS（鲁棒无监督特征选择）的过滤方法。目标是实现鲁棒聚类和鲁棒特征选择。与上述无监督特征选择方法（如MCFS、UDFS和NDFS）不同，RUFS通过局部学习正则化鲁棒非负矩阵分解学习伪簇标签（Kong et al.2011）。其思想是在特征选择时通过鲁棒联合l2,1范数最小化来学习标签。在这项工作中，作者还提出了一种迭代有限内存BFGS（Liu和Nocedal 1989）算法来有效地解决优化问题，并使RUFS适用于实际应用。

RUFSM (Robust Unsupervised Feature Selection via Matrix Factorization)

根据与RUFS类似的想法，Du等人（2017）提出了一种称为RUFSM（通过矩阵分解的鲁棒无监督特征选择）的方法。RUFSM通过使用l2,1-范数同时执行鉴别特征选择和鲁棒聚类来选择特征。RUFS和RUFSM的主要区别在于后者将聚类中心作为客观概念，而不是数据的伪标签。

RSFS (Robust Spectral learning framework for unsupervised Feature Selection)

解决噪声特征和异常值问题的另一种方法是RSFS（用于无监督特征选择的鲁棒谱学习框架）（Shi等人，2015）。RSFS通过应用图嵌入步骤（使用核回归）来选择特征，以有效地学习聚类结构，并通过稀疏谱回归来处理噪声和异常值。其思想是建立拉普拉斯图，考虑到通过局部核回归分配给每个对象的权重，并开发有效的迭代算法来解决所提出的优化问题。

近年来，一些在稀疏学习/谱分析范畴下开展的工作被提出，但这些工作是在一种称为特征自表示的新视角下开展的。这些方法背后的假设是，每个特征可以通过相关特征的线性组合和具有稀疏性约束的系数矩阵（可以用作特征权重）来很好地近似。

RSR (Regularized Self-Representation model for unsupervised feature selection)

RSR（Zhu等人，2015）（用于无监督特征选择的正则化自表示模型）是第一个利用这一思想的模型。在这项工作中，作者认为，如果一个特征很重要，那么它将参与大多数其他特征的表示。特征选择通过使用l2,1-范数对残差进行表征来最小化自表示误差，并选择最具代表性的特征（具有高特征权重的特征）。Zhu等人（2017）提出了RSR的扩展版本，作者使用l2,p-范数正则化代替l2,1-范数来选择特征，强调p值较小的功能(0 ≤ p < 1)。

GRNSR (Graph Regularized Non-negative Self Representation)

另一种与RSR相关的方法是GRNSR（图形正则化非负自我表征）（Yi等人，2016）。与RSR一样，GRNSR利用了特征的自表示能力，但不同的是，GRNSR还使用邻域加权图（低秩表示图）考虑了数据的几何结构。在GRNSR中，每个特征首先通过非负线性组合由所有其他特征表示。然后，构造相似矩阵来揭示对象的局部结构信息，并将非负最小二乘（NNLS）问题作为最终l2,1-范数非负约束回归问题的一个新项。之后，一旦对模型（回归问题）进行了优化，将选择权重最高的排名前d个特征。

在自我表征视角下开发的其他较新方法包括SPNFSR（Zhou等人2017）、LRSL（Wang和Wang 2017）、DSRMR（Tang等人2018a）、l2,1-UFS（Tang等人2018b）和Lu等人（2018）提出的想法。

SPNFSR (Structure- Preserving Non-negative Feature Self-Representation)、l2,1 -UFS (l2,1 based graph regularized UFS method) 、 DSRMR (Dual Self-Representation and Manifold Regularization)

SPNFSR（结构保持非负特征自表示）、l2,1-UFS（基于l2,1的图正则化UFS方法）和DSRMR（双重自表示和流形正则化）通过优化基于l2,1-范数的模型，同时考虑了特征的自表示和结构保持能力。这些方法的总体思想是优化模型（目标函数），考虑三个方面：

（1）使用l2,1范数的特征自表示。

（2）原始数据的局部流形几何结构使用基于图的范数正则化项。

（3）反映每个特征重要性的正则化项W。优化问题通过一个有效的迭代算法来解决。在最后阶段，根据相应的W值按降序对每个特征进行排序，并选择排名前p的特征。

LRSL (Low-rank approximation and structure learning for unsupervised feature selection)

与以前的方法不同，LRSL（无监督特征选择的低秩近似和结构学习）使用Frobenius范数而不是l2,1范数。最后，Lu等人（2018）介绍的方法提出了一个目标函数，用于通过原始特征空间中所有特征的线性组合来建模特征选择问题，并使用对象相似性矩阵考虑数据的局部流形结构。然后，一旦模型收敛，根据相应的权重对特征进行排序，并选择排名前p的特征。

最近，有人提出在稀疏学习模型中使用局部线性嵌入（LLE）和非凸稀疏正则化函数。在Luo等人（2018）中，提出了一种新的无监督特征选择方法，该方法使用LLE（Roweis和Saul 2000）对数据的流形结构进行建模。其思想是通过基于LLE图而不是典型的两两相似矩阵和结构正则化项来表征内在的局部几何特征。对于每个特征，定义基于LLE图的特征级重建分数，并根据该分数选择最终特征子集。另一方面，Shi等人（2018）提出了一种非凸稀疏学习模型。其思想是通过一个正交的非负约束稀疏正则化模型执行特征选择，该模型使用一个名为l2,1-2的新范数，该范数定义为l2,1和Frobenius范数的差。为了有效地求解该模型，还提出了一种基于交替方向乘数法（ADMM）（Boyd et al.2011）的迭代算法。

A review of unsupervised feature selection methods-无监督特征选择方法综述（三）

猜你喜欢