大型数据集的方法和常用的算法，主要有哪些？

这里有四个比较具体的研究人员试图了解大型数据集的方法以及一些常用的算法。这些方法和算法有许多变数，但是这个表单至少是个良好的开端。我将在后续的帖子中更详尽的描述他们。

1）投影——找一个从原始向量空间到低维空间（例如水平面）尽可能少的扭曲点与点之间关系的函数，当然，尽可能的线性投影，但是找到一个好的线性投影可不是一个平凡的工作。线性投影最流行的做法似乎是主成分分析法。如拓扑学，不过，我们可以想像线性预测潜在问题，特别是拓扑有趣集。自组织映射图（有时称为Kohonen map）产生一个本地/分段线性投影，似乎更像拓扑声纹。更普遍的是，人们可以尝试投到一个更有趣的拓扑低维流上，这叫做流形学习。

2）特征选择——在一些高维数据中，有许多维度是噪音数据。特征选择是找出那些具有高信噪比的问题。统计学方法可以逐个的检查特征/尺寸，但往往最好是一下子能看到特征的子集。从拓扑学观点，这仅仅是有限的线性投影形式，但是在实际中往往是一个单独的问题类型。特别是人们普遍要投射到两维或者三维的情况，但是对于特征选择，可以选择超过两个或者三个的特征。这两个问题往往是进入下面两个之一的前奏：

3）分类——这个问题和机器学习密切相关，通常被叫做监督学习：一组带有标签的收集数据，这些标签告诉你它从哪儿来；另一组没有标签的收集数据，决定哪个标签最适合他们，这就是“学习”，因为你可以通过思考标记的数据来进行训练——你告诉计算机在不同情形下对于集合中每个元素应该做什么样的决定。然后电脑必须自己决定在其余的情况下该做什么，通常，人们要基于标签数据建立一个合理的模型，然后抛出原始数据并归纳出基于这个模型新问题。尤其是，经常要权衡是制造一个拓扑的、尖端的模型还是造一个计算廉价的。但是，如上所述，这个模型必须避免过度拟合。有许多不同的方法来解决这个问题。

4）聚类——这是一个基于几何学来分隔数据（未标记）为小数量集的问题。它是数据挖掘的核心问题，尽管在机器学习中它归入非监督学习，即与非标记的数据工作。关于这个的一个流行算法是K-means，它假设概率分布是以K点为中心的高斯总和(a sum of Gaussians)，并且尝试去找到这些点。这个算法由于计算效率而闻名，但是常常返回无用结果集。一个更合理做法是形成一个顶点是这些数据点的图形，用边连接点距低于一个给定阈值的点（或者高于一个给定阈值的点）。这个聚类问题转换成了一个图分隔问题——通过较少的边分隔成相对较大的块。

这些是比较实际的问题，尽管不像我们使用在拓扑学上的，但是有可能是一个没有明确及最终答案的问题。相反，每个问题的最佳方法取决于特定的数据集和长期项目分析目标。因此，对于任何的方法，包括拓扑学启发的，在适合的情况下都有可能非常有用。

人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：
人工智能在发展过程，算法研究有哪些新进展
http://www.duozhishidai.com/article-13410-1.html
数据挖掘的聚类算法和优势
http://www.duozhishidai.com/article-12942-1.html
大数据时代，软件工程师渐退，算法工程师崛起
http://www.duozhishidai.com/article-5102-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大型数据集的方法和常用的算法，主要有哪些？

猜你喜欢