数据挖掘常用算法有哪些?分类、聚类、预测、关联规则

1. 分类

  • 在数据挖掘的发展过程中,由于数据挖掘不断地将诸多学科领域知识与技术融入当中,因此,目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看,数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索性分析、支持向量机与最近邻分析等:神经网络方法分为前向神经网络、自组织神经网络、感知机、多层神经网络、深度学习等。在具体的项目应用场景中通过使用上述这些特定算法,可以从大数据中整理并挖掘出有价值的所需数据,经过针对性的数学或统计模型的进一步解释与分析, 提取出隐含在这些大数据中的潜在的规律、规则、知识与模式口。下面介绍数据挖据中经常使用的分类、聚类、关联规则与时间序列预测等相关概念。

  • 数据挖掘方法中的一种重要方法就是分类,在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一种类别,这就是分类的概念。在分类过程中,通常通过构建分类器来实现具体分类,分类器是对样本进行分类的方法统称。一般情况下,分类器构建需要经过以下4步:①选定包含正、负样本在内的初始样本集,所有初始样本分为训练与测试样本;②通过针对训练样本生成分类模型:③针对测试样本执行分类模型,并产生具体的分类结果:④依据分类结果,评估分类模型的性能。在评估分类模型的分类性能方面,有以下两种方法可用于对分类器的错误率进行评估:①保留评估方法。通常采用所有样本集中的2/3部分样本作为训练集,其余部分样本作为测试样本,也即使用所有样本集中的2/3样本的数据来构造分类器,并采用该分类器对测试样本分类,评估错误率就是该分类器的分类错误率。这种评估方法具备处理速度快的特点,然而仅用2/3 样本构造分类器,并未充分利用所有样本进行训练。②交叉纠错评估方法。该方法将所有样本集分为N个没有交叉数据的子集,并训练与测试共计N次。在每一次 训练与测试过程中,训练集为去除某- 个子集的剩余样本,并在去除的该子集上进行N次测试,评估错误率为所有分类错误率的平均值。一般情况下,保留评估方法用于最初试验性场景,交叉纠错法用于建立最终分类器。

2. 聚类

  • 随着科技的进步,数据收集变得相对容易,从而导致数据库规模越来越庞大,例如,各类网上交易数据、图像与视频数据等,数据的维度通常可以达到成百上千维。在自然社会中,存在大量的数据聚类问题,聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组数据对象的集合。聚类源于分类,聚类又称为群分析,是研究分类问题的另种统计计算方法, 但聚类又不完全等同于分类同。聚类与分类的不同点在于:聚类要求归类的类通常是未知的,而分类则要求事先已知多个类。对于聚类问题,传统聚类方法已经较为成功地解决了低维数据的聚类,但由于大数据处理中的数据高维、多样与复杂性,现有的聚类算法对于大数据或高维数据的情况下,经常面临失效的窘境。受维度的影响,在低维数据空间表现良好的聚类方法,运用在高维空间上却无法获得理想的聚类效果。在针对高维数据进行聚类时,传统聚类方法主要面临两个问题:①相对低维空间中的数据,高维空间中数据分布稀疏,传统聚类方法通常基于数据间的距离进行聚类,因此,在高维空间中采用传统聚类方法难以基于数据间距离来有效构建簇。②高维数据中存在大量不相关的属性,使得在所有维中存在簇的可能性几乎为零。目前,高维聚类分析已成为聚类分析的个重要研究方向,也是聚类技术的难点与挑战性的工作。

3. 关联规则

  • 关联规则属于数据挖掘算法中的一类重要方法,关联规则就是支持度与置信度分别满足用户给定阈值的规则4。所谓关联,反映一个事件与其他事件间关联的知识。支持度揭示了A和B同时出现的频率。置信度揭示了B出现时,A有多大的可能出现。关联规则最初是针对购物篮分析问题提出的,销售分店经理想更多了解顾客的购物习惯,尤其想获知顾客在一次购物时会购买哪些商品。通过发现顾客放入购物篮中不同商品间的关联,从而分析顾客的购物习惯。关联规则的发现可以帮助销售商掌握顾客同时会频繁购买哪些商品,从而有效帮助销售商开发良好的营销手段。1993 年,R.Agrawal首次提出挖掘顾客交易数据中的关联规则问题,核心思想是基于二阶段频繁集的递推算法。起初关联规则属于单维、单层及布尔关联规则,例如,典型的Aprior 算法。在工作机制上,关联规则包含两个主要阶段:第1阶段先从资料集合中找出所有的高频项目组,第2阶段由高频项目组中产生关联规则。随着关联规则的不断发展,目前关联规则中可以处理的数据分为单维和多维数据。针对单维数据的关联规则中,只涉及数据的一一个维,如客户购买的商品:在针对多维数据的关联规则中,处理的数据涉及多个维。总体而言,单维关联规则处理单个属性中的一些关系,而多维关联规则处理各属性间的关系。

4. 时间序列预测

  • 通常将统计指标的数值按时间顺序排列所形成的数列,称为时间序列。时间序列预测法是一种历史引申预测法,也即将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。时间序列分析是动态数据处理的统计方法,主要基于数理统计与随机过程方法,用于研究随机数列所服从的统计学规律,常用于企业经营、气象预报、市场预测、污染源监控、地震预测、农林病虫灾害预报、天文学等方面。时间序列预测及其分析是将系统观测所得的时数据,通过 参数估计与曲线拟合来建立合理数学模型的方法,包含谱分析与自相关分析在内的一系列统计分析理论, 涉及时间序列模型的建立、推断、最优预测、非线性控制等原理。时间序列预测法可用于短期、中期和长期预测,依据所采用的分析方法,时间序列预测又可以分为简单序时平均数法、移动平均法、季节性预测法、趋势预测法、指数平滑法等方法。

猜你喜欢

转载自blog.csdn.net/qq_38132105/article/details/107074281
今日推荐