流形学习算法的理论

当今时代，信息过量导致一个现象：数据爆炸但知识贫乏。由此引发了一个新的研究方向：基于数据库的知识发现（简称KDD）以及相应的数据挖掘（Data Mining）理论和技术的研究。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
数据挖掘的一个非常重要的工具和方法是数据降维。数据降维的目的是找出高维数据中的所隐藏的低维结构。现实生活中的许多现象可以用高维数据来描述。比如天气状况,随着气象学的发展,现在用来描述气象特阵的指标非常多,例如温度、湿度、气压、风力、降雨量、辐射强度等,将这些用多个变量描述现象的数据,抽象出来就是高维数据。高维数据提高了有关客观现象的极其丰富、详细的信息。但是,数据维数的大幅度提高给随后的数据处理工作带来了前所未有的困难,即如何从大量的数据特征中找出其本质的或用户有兴趣的特征。这就需要对数据集进行降维处理,并且在降维后能保持数据集原有的一些本质特征不变。

图像分类系统。假设有一组数字图像,这组图像共有N张图像,每张图像都是m*n大小的灰度图。可以对每张图像按行或列堆叠转化成一个列向量,而列向量的维数为m*n,每个分量的大小表示图像的像素点的像素值的大小。对于m=n=256的图像,最后转化为65536维的向量。对于如此高的维数,常用的分类方法都无法有效的工作,因此,我们需要降低维数,而且在降低维数的同时,能保持图像之间所隐藏的本质关系,比如图像的拍摄角度、光线亮度等等,然后再进行分类识别。
文本分类系统。文本分类是指根据文本的内容和属性,将大量的文本归到一个或多个类别的过程。文本分类技术通过分析待分类对象,提取出分类对象特阵,比较待分类对象和系统预定义类别对象的特征,将待分类对象划归为特征量最相近的一类,并赋予相应的分类号。计算机并不具有人类的智能,从根本上说,它只认识和,所以必须将文本转换为计算机可以识别的格式。假定组成文本的字或词在确定文本类别的作用上相互独立,这样,可以就使用文本中出现的字或词的集合来代替文本。在信息处理方向上,向量来表示文本信息首先,替文本建立一个词库,词库中词的个数。为文本的维数然后就可以利用词库来构造向量(W₁,…,W_n)^T。表示文本信息,其中W_i表示了词库中第i个词在文本中出现的次数。很显然,构造文本的词汇量是相当大的,因此,文本向量的维数。也是巨大的。对此,我们有必要进行数据降维,以提高算法效率和运行速度,再对降维的结果进行分类。
基因序列的建模。蛋白质是由氨基酸组成的序列,氨基酸分子的个数从几十个到成千上万不等。具有相同空间结构但氨基酸排列不同的蛋白质,被分为同一组中,这就是所谓的蛋白质组类似于基因组。通过蛋白质组模型可以了解不同蛋白质组的特殊的性质,能够有助于辨别和发现新组。但由于蛋白质组特征的维数很高,这给辨别和分析带来了很大的困难。通过数据降维,可以用很少的简单变量来反映蛋白质组的性质,以利于辨别和分析。

由于真实世界中的数据往往是高维的,而高维的数据难以被人理解、表示和处理,因此需要采用数据降维以获得低维的数据。经过降维的数据可以更好的进行分析,因此对降维问题的研究成为机器学习和数据挖掘中的重要主题。数据降维算法可以分成两类,一类是线性降维方法,如主成分分析法、多维尺度算法和非负矩阵分解等; 另一类是非线性降维方法,如等距映射算法、局部线性嵌入法和局部切空间排列方法等。

非线性降维

非线性降维就是通常所说的流形学习,这里先给出流形学习中的一些数学定义

流形学习中的一些数学定义：

拓朴：一个拓朴空间就是一个集对（X，τ）,其中集合X为一非空集合,拓扑τ是的满足以下性质的子集族：

τ关于属于它的任意多元素的并运算是封闭的；
τ关于属于它的有限多元素的交运算是封闭的；
τ含有空集∅和X本身作为其元素。

Haufdorff空间：如果对X中任意两个不同点x,y,都存在x的邻域U以及y的邻域V使得U∩V=∅。此时,称（X，τ）为Haufdorff空间。
流形：设M是一个Haufdorff拓扑空间,若对每一点P∈M，都有的一个开邻域U,它与R^d的某个开子集同胚,则称M为d维拓扑流形,简称为d维流形。
微分流形:一个d维C^k流形就是一对(M,Λ),其中M为d维流形,Λ={(U_α，φ_α)}_α∈A为一C^k的微分结构,即满足以下条件:

（局部欧氏性）{U_α：α∈A}构成M的一个开覆盖,φ_α：U_α→φ_α（U_α）为同胚映射；
（C^k相容性）若U_α∩U_β≠∅,则双射
φ_α°φ_β^-1：φ_β(U_α∩U_β)→φ_α(U_α∩U_β)
和它的逆映射都是k次可微的,则称(U_α,φ_α)与(U_β,φ_β)是相容的。

有时间再写