机器学习中一些方向以及方法的大体解释

子空间学习：subspace learning

(1) 子空间学习是指通过投影实现高维特征向低维空间的映射，是一种经典的降维思想。

例如人脸图像，如果每幅图像提取出来的特征是1000维，则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题，且很多人认为真实有效的人脸图像特征并没有那么高维，可能只有100维，即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维，就是子空间学习问题。在模式识别中，可能绝大多数的维数约简（降维，投影）算法都算是子空间学习，如PCA, LDA, LPP, LLE等等。子空间学习的主要问题，就是如何将特征从高维空间压缩到低维空间，需要保留什么样的信息，设定什么样的准则，低维空间的特征具有哪些特征等问题。

(2)子空间学习: 举例说明，比如你拿到了一组数据要做分类任务，然而数据分布在一个高维空间中，不太方便处理，维度太高导致采用的分类模型的复杂度也相应增高，最终导致分类模型容易过拟合。一般情况下，这个问题无法解决，但是数据中往往存在一些特性使得这个问题又有了可以解决的希望，比如数据其实分布在高维空间的一个子空间中，你拿到的高维数据其实是子空间中的无噪声数据+高维噪声数据，而这个子空间的维度其实不是很大，那么找出这个子空间，就能保证尽量不丢失信息又能降低数据维度，在这个子空间中做训练，就可以降低过拟合现象。常见的PCA LDA LLE 等都是基于spectral method(谱方法)的子空间学习方法，往往可以看做是kernel pca的特例。还有一类子空间学习方法是R. Vidal做的SSC(subspace clustering)系列，有相应的理论保证。广义上，子空间学习就是降维。

子空间分割：subspace segmentation

通常，在做子空间分割时，我们希望求取的表示系数矩阵（by稀疏表示，低秩表示或正则化最小二乘以及其它改进版本）成块对角结构，这样块的个数就等于子空间的维数（也即clustering number）。理想情况下，表示系数矩阵的秩应该等于子空间的维数，这样可达100%的分割效果。

子空间聚类：subspace clustering

聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技术的难点和重点，子空间聚类是实现高维数据集聚类的有效途径，它是在高维数据空间中对传统聚类算法的一种扩展，其思想是将搜索局部化在相关维中进行。

根据算法思想，传统的聚类算法可分以下五类：① 划分方法：将数据集随机划分为k个子集，随后通过迭代重定位技术试图将数据对象从一个簇移到另一个簇来不断改进聚类的质量；②层次方法：对给定的数据对象集合进行层次的分解，根据层次的形成方法，又可以分为凝聚和分裂方法两大类；③基于密度的方法：根据领域对象的密度或者某种密度函数来生成聚类，使得每个类在给定范围的区域内必须至少包含一定数目的点；④基于网格的方法：将对象空间量化为有限数目的单元，形成一个网格结构，使所有聚类操作都在这个网格结构上进行，使聚类速度得到较大提高；⑤基于模型的方法：为每个类假定一个模型，寻找数据对给定模型的最佳拟合。

目前，聚类分析的研究集中在聚类方法的可伸缩性、对复杂形状和类型的数据进行聚类的有效性、高维聚类分析技术以及混合数据的聚类方法研究，其中，高维数据聚类是聚类分析的难题，也是涉及到聚类算法是否适用于很多领域的关键。而传统聚类算法对高维数据空间进行聚类时会遇到困难，为了解决这个问题，R．Agrawal首次提出了子空间聚类的概念，以解决高维数据的聚类问题。

传统聚类方法在高维数据集中进行聚类时，主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零；②高维空间中数据较低维空间中数据分布要稀疏，其中数据间距离几乎相等是普遍现象，而传统聚类方法是基于距离进行聚类的，因此在高维空间中无法基于距离来构建簇。

目前一般使用两种方法解决以上问题：（1）特征转换，（2）特征选择 /子空间聚类。

特征选择只在那些相关的子空间上执行挖掘任务，因此它比特征转换更有效地减少维。特征选择一般使用贪心策略等搜索方法搜索不同的特征子空间，然后使用一些标准来评价这些子空间，从而找到所需的簇。

子空间聚类算法拓展了特征选择的任务，尝试在相同数据集的不同子空间上发现聚类。和特征选择一样，子空间聚类需要使用一种搜索策略和评测标准来筛选出需要聚类的簇，不过考虑到不同簇存在于不同的子空间，需要对评测标准做一些限制。

选择的搜索策略对聚类结果有很大的影响。根据搜索的方向的不同，可以将子空间聚类方法分成两大类：自顶向下的搜索策略和自底向上的搜索策略。

人脸识别：face recognition

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

谱聚类：spectral clustering

谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。

该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I 设计等领域，最近才开始用于机器学习中，并迅速成为国际上机器学习领域的研究热点。

谱聚类算法建立在图论中的谱图理论基础上，其本质是将聚类问题转化为图的最优划分问题，是一种点对聚类算法，对数据聚类具有很好的应用前景。

谱图：laplacian graph

谱图是光、声音或其他信号的视觉表示，其随着时间或其他变量的变化。

光谱图在光学中被科学地用于描述通过棱镜后可见光中的彩虹。由于科学的光学理解，它适用于整个电磁波谱。

而频谱图有时被称为频谱瀑布、声波纹或语音图。频谱图常用于在语音上识别口语，并分析动物的各种呼唤。它们广泛用于音乐、声纳、雷达和语音处理领域的发展，地震学等。

在数学中，矩阵的谱图是矩阵的特征值的多重集合。

在功能分析中，有界运算符的谱图概念是矩阵特征值概念的泛化。

流形学习：manifold learning

流形学习，全称流形学习方法(Manifold Learning)，自2000年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

流形学习方法是模式识别中的基本方法，分为线性流形学习算法和非线性流形学习算法，非线性流形学习算法包括等距映射（Isomap） [1] ，拉普拉斯特征映射（Laplacian eigenmaps，LE） [2] ，局部线性嵌入(Locally-linear embedding，LLE) [3] 等。而线性方法则是对非线性方法的线性扩展，如主成分分析（Principal component analysis，PCA），多维尺度变换（Multidimensional scaling，MDS）等。

判别分析：discriminant analysis

判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。

当得到一个新的样品数据，要确定该样品属于已知类型中哪一类，这类问题属于判别分析问题。

主成分分析 principal component analysis（PCA）

主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。

主成分分析首先是由K.皮尔森（Karl Pearson）对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

原理：在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，将重复的变量（关系紧密的变量）删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

特征提取 feature extraction

特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。

特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分，它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”：同一场景的不同图像所提取的特征应该是相同的。

维数约简 dimensionality reduction

维数约简又称为降维，是机器学习的一种必要手段。若数据库X是属于n维空间的，通过特征提取或者特征选择的方法，将原空间的维数降至m维，要求n远大于m，满足：m维空间的特性能反映原空间数据的特征，这个过程称之为维数约简。

维数约简是相对于维数灾难或者说是高维数据来提出的，很明显，其意义就是降低原来的维数，并保证原数据库的完整性，在约简后的空间中执行后续程序将大大减少运算量，提高数据挖掘效率，且挖掘出来的结果与原有数据集所获得结果基本一致。更广泛的说就是防止了维数灾难的发生。

数据维数约简的方法可以分为线性维数约简和非线性维数约简，而非线性维数约简又分为基于核函数的方法和基于特征值的方法。线性维数约简的方法主要有主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、局部特征分析（LFA）等等。基于核函数的非线性维数约简方法有基于核函数的主成分分（KPCA）、基于核函数的独立成分分析（KICA）、基于核函数的决策分析（KDA）等等。基于特征值的非线性降维方法有ISOMAP 和LLE。

稀疏表示 sparse representation

信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域，众多研究论文和专题研讨会表明了该领域的蓬勃发展。信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号，可以获得信号更为简洁的表示方式，从而使我们更容易地获取信号中所蕴含的信息，更方便进一步对信号进行加工处理，如压缩、编码等。

现有稀疏表示模型一般形式如下：

X=argmin||y-Dx||k+λ||x||

其中，y 为观测数据， D 为字典， x 为待估稀疏向量， λ 为正则参数， k （1≤ k<2 ）为稀疏度量。其中，
　　λ 与 k 未知，需要预先确定（虽然通常取 k =1 ，但 k <1 时模型更加灵活）。对该模型的理论研究，主要包括模型解与 l0 范数最小化解的逼近程度、稀疏表示模型解的唯一性与稳定性等。但是，在一些具体的应用如图像增强与测控资源优化配置中，稀疏度量并不是唯一且最重要的指标。

稀疏表示研究的热点包括模型的近似表示、模型解的唯一性与稳定性、稀疏表示的性能分析、模型求解算法、字典学习算法、稀疏分解算法、超完备原子字典、稀疏表示的具体应用以及紧密联系的压缩传感等方面。其中，具体的应用包括：图像处理（如压缩、增强与超分辨）、音频处理（如盲源分离）与模式识别（如人脸与手势识别）等。从实用角度看，具有针对性的灵活模型、计算速度、自适应以及高性能表示结果是稀疏表示方法在应用领域发挥其优势的关键问题。

机器学习中一些方向以及方法的大体解释

猜你喜欢