A review of unsupervised feature selection methods-无监督特征选择方法综述(五)

Hybrids

为了利用过滤器和包装器方法,即混合方法,在过滤器阶段,根据数据的内在属性应用度量对特征进行排序或选择。而在包装阶段,通过特定的聚类算法对某些特征子集进行评估,以找到最佳特征子集。我们可以区分两种类型的混合方法:基于排序的方法和不基于特征排序的方法。在本节中,我们描述了属于此方法的两种类型的一些方法。

Dash和Liu(2000)介绍了第一种基于排序的无监督混合特征选择方法。该方法基于Dash等人(1997)(过滤阶段)提出的熵测度,以及内部散射可分性准则(Dy和Brodley 2004)(包装阶段)。在过滤阶段,从整个特征集中逐个删除每个特征,并计算消除特征后在数据集中生成的熵。这将根据每个特征从整个特征集中移除时生成的无序程度生成一个有序的特征列表。一旦对所有特征进行了排序,在包装器阶段,前向选择搜索将与k-均值聚类算法一起应用,以构建使用分散可分性准则评估的簇。该方法选择达到最高可分性标准值的特征子集。

Li等人(2006年)提出了另一种基于特征排序的混合方法。在该方法中,作者将指数熵测度与模糊评价指数FFEI(Pal等人,2000)相结合,分别用于特征排序和特征子集选择。该方法基于生成的排序,采用考虑特征子集的顺序搜索,并使用模糊评价指标作为质量度量。在包装阶段,为了选择更小的特征子集,使用模糊c均值算法和分散可分性准则(Dy和Brodley 2004)来选择作者所谓的“紧凑”特征子集。

Solorio Fernández等人(2016年)提出了一种基于排名的无监督特征选择方法。在该方法中,作者结合光谱特征选择和Calinski-Harabasz指数(Calinski和Harabasz 1974)来选择相关特征子集。特征选择分为两个阶段:(1)特征排序和(2)特征子集选择。在第一阶段,想法是识别那些保留数据结构的特征,计算每个特征的拉普拉斯分数(He et al.2005);这将生成一个功能排名。之后,在第二阶段中,利用前一阶段生成的排名并使用前向或后向选择搜索,通过称为WNCH(Weighted Normalized Calinski-Harabasz index,加权归一化Calinski-Harabasz指数)的修改后的内部评估指数对特征子集进行评估。选择具有最高WNCH值的特征子集。

另一方面,在Hruschka等人(2005年)中,引入了一种混合的基于非排序的UFS方法,称为BFK,它结合了k-均值和贝叶斯滤波器。与上面提到的所有混合方法不同,该方法从包装器阶段开始,在数据集上运行kmeans聚类算法,其中包含用户指定的一系列聚类。使用简化的轮廓标准对簇进行评估,并选择值最高的簇。随后,在过滤阶段,使用马尔可夫覆盖的概念,通过贝叶斯网络选择特征子集,其中每个簇表示一个类,节点表示特征,边表示特征之间的关系。

Kim和Gao(2006)介绍了另一种基于非排序的混合方法,该方法去除了不相关和冗余的特征。该方法分两步进行特征选择:第一步,应用基于最小二乘估计(LSE)的评估(Mao 2005)建立特征子集。第二步仅适用于第一步中确定的特征,并通过使用顺序前向选择搜索找到最大化聚类性能的最佳特征子集(使用EM聚类算法的改进版本)。

最后,值得注意的是,在文献中,还提出了一些专门用于处理特定领域数据的混合无监督特征选择方法,如(Jashki et al.2009;Hu et al.2009;Yang et al.2011a;Yu 2011)。同样,还有其他工作,如Hruschka等人(2007)、Luo和Xiong(2009)以及Dash和Ong(2011)中提出的工作,这些工作从另一个不同的角度解决了问题;执行特征选择时,假设一组簇可以建模为一组不同的类,它们可以对数据应用传统的有监督特征选择方法。

猜你喜欢

转载自blog.csdn.net/aab11235/article/details/121339083
今日推荐