数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

一. 分类
二. 聚类
三. 关联规则
四时间序列预测

1. 分类

在数据挖掘的发展过程中，由于数据挖掘不断地将诸多学科领域知识与技术融入当中，因此，目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看，数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类，目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索性分析、支持向量机与最近邻分析等:神经网络方法分为前向神经网络、自组织神经网络、感知机、多层神经网络、深度学习等。在具体的项目应用场景中通过使用上述这些特定算法，可以从大数据中整理并挖掘出有价值的所需数据，经过针对性的数学或统计模型的进一步解释与分析，提取出隐含在这些大数据中的潜在的规律、规则、知识与模式口。下面介绍数据挖据中经常使用的分类、聚类、关联规则与时间序列预测等相关概念。
数据挖掘方法中的一种重要方法就是分类，在给定数据基础上构建分类函数或分类模型，该函数或模型能够把数据归类为给定类别中的某一种类别，这就是分类的概念。在分类过程中，通常通过构建分类器来实现具体分类，分类器是对样本进行分类的方法统称。一般情况下，分类器构建需要经过以下4步:①选定包含正、负样本在内的初始样本集，所有初始样本分为训练与测试样本;②通过针对训练样本生成分类模型:③针对测试样本执行分类模型，并产生具体的分类结果:④依据分类结果，评估分类模型的性能。在评估分类模型的分类性能方面，有以下两种方法可用于对分类器的错误率进行评估:①保留评估方法。通常采用所有样本集中的2/3部分样本作为训练集，其余部分样本作为测试样本，也即使用所有样本集中的2/3样本的数据来构造分类器，并采用该分类器对测试样本分类，评估错误率就是该分类器的分类错误率。这种评估方法具备处理速度快的特点，然而仅用2/3 样本构造分类器，并未充分利用所有样本进行训练。②交叉纠错评估方法。该方法将所有样本集分为N个没有交叉数据的子集，并训练与测试共计N次。在每一次训练与测试过程中，训练集为去除某- 个子集的剩余样本，并在去除的该子集上进行N次测试，评估错误率为所有分类错误率的平均值。一般情况下，保留评估方法用于最初试验性场景，交叉纠错法用于建立最终分类器。

2. 聚类

随着科技的进步，数据收集变得相对容易，从而导致数据库规模越来越庞大，例如，各类网上交易数据、图像与视频数据等，数据的维度通常可以达到成百上千维。在自然社会中，存在大量的数据聚类问题，聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程，聚类过程生成的簇称为一组数据对象的集合。聚类源于分类，聚类又称为群分析，是研究分类问题的另种统计计算方法，但聚类又不完全等同于分类同。聚类与分类的不同点在于:聚类要求归类的类通常是未知的，而分类则要求事先已知多个类。对于聚类问题，传统聚类方法已经较为成功地解决了低维数据的聚类，但由于大数据处理中的数据高维、多样与复杂性，现有的聚类算法对于大数据或高维数据的情况下，经常面临失效的窘境。受维度的影响，在低维数据空间表现良好的聚类方法，运用在高维空间上却无法获得理想的聚类效果。在针对高维数据进行聚类时，传统聚类方法主要面临两个问题:①相对低维空间中的数据，高维空间中数据分布稀疏，传统聚类方法通常基于数据间的距离进行聚类，因此，在高维空间中采用传统聚类方法难以基于数据间距离来有效构建簇。②高维数据中存在大量不相关的属性，使得在所有维中存在簇的可能性几乎为零。目前，高维聚类分析已成为聚类分析的个重要研究方向，也是聚类技术的难点与挑战性的工作。

3. 关联规则

关联规则属于数据挖掘算法中的一类重要方法，关联规则就是支持度与置信度分别满足用户给定阈值的规则4。所谓关联，反映一个事件与其他事件间关联的知识。支持度揭示了A和B同时出现的频率。置信度揭示了B出现时，A有多大的可能出现。关联规则最初是针对购物篮分析问题提出的，销售分店经理想更多了解顾客的购物习惯，尤其想获知顾客在一次购物时会购买哪些商品。通过发现顾客放入购物篮中不同商品间的关联，从而分析顾客的购物习惯。关联规则的发现可以帮助销售商掌握顾客同时会频繁购买哪些商品，从而有效帮助销售商开发良好的营销手段。1993 年，R.Agrawal首次提出挖掘顾客交易数据中的关联规则问题，核心思想是基于二阶段频繁集的递推算法。起初关联规则属于单维、单层及布尔关联规则，例如，典型的Aprior 算法。在工作机制上，关联规则包含两个主要阶段:第1阶段先从资料集合中找出所有的高频项目组，第2阶段由高频项目组中产生关联规则。随着关联规则的不断发展，目前关联规则中可以处理的数据分为单维和多维数据。针对单维数据的关联规则中，只涉及数据的一一个维，如客户购买的商品:在针对多维数据的关联规则中，处理的数据涉及多个维。总体而言，单维关联规则处理单个属性中的一些关系，而多维关联规则处理各属性间的关系。

4. 时间序列预测

通常将统计指标的数值按时间顺序排列所形成的数列，称为时间序列。时间序列预测法是一种历史引申预测法，也即将时间数列所反映的事件发展过程进行引申外推，预测发展趋势的一种方法。时间序列分析是动态数据处理的统计方法，主要基于数理统计与随机过程方法，用于研究随机数列所服从的统计学规律，常用于企业经营、气象预报、市场预测、污染源监控、地震预测、农林病虫灾害预报、天文学等方面。时间序列预测及其分析是将系统观测所得的时数据，通过参数估计与曲线拟合来建立合理数学模型的方法，包含谱分析与自相关分析在内的一系列统计分析理论，涉及时间序列模型的建立、推断、最优预测、非线性控制等原理。时间序列预测法可用于短期、中期和长期预测，依据所采用的分析方法，时间序列预测又可以分为简单序时平均数法、移动平均法、季节性预测法、趋势预测法、指数平滑法等方法。

数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

1. 分类

2. 聚类

3. 关联规则

4. 时间序列预测

猜你喜欢