数据挖掘十大经典算法原理

1. Apriori算法

Apriori是一种关联规则的频繁集算法，其核心思想是通过候选集生成金额情节向下检测两个阶段来挖掘频繁集。它使用支持度寻找频繁集。使用置信度确定强关联规则。

2. KNN算法

KNN算法的主要思想是计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的k个训练数据，k个数据中哪个类别的占多数，则该待测元组就属于哪个类别。

3. C4.5算法

C4.5是经典的决策树分类方法，其原理和ID3算法相似，它由ID3算法改进而来。不同的是ID3算法使用信息增益的高低创建决策结点，而C4.5是根据信息增益比来选择决策特征。
比起ID3算法他有以下新功能：
1.使用了信息增益比的概念
2.合并具有连续属性的值
3.可以处理缺少属性值得样本
4.使用不同的修剪技术避免过度拟合

4. k-means算法

k-means算法是一种迭代求解的聚类分析算法，其步骤是随机选取k个对象作为初始的聚类中心点，然后计算每个对象与种子聚类中心点的距离，吧每个对象分配给距离它最近的聚类中心，每分配样本后重新计算新的中心点并重复以上步骤，直到满足终止条件（中心点的位置不再发生变化）

5. Em算法

EM算法是一类通过迭代进行极大似然估计的优化算法。一般重复一下两个步骤：
1.E（估计）步骤：使用当前的h和观察数据X来估计Y的概率分布以计算Q(h’|h)
2.M(最大化)步骤：奖假设h替换为使得Q函数最大化的假设h’

6. CART算法

CART算法是一种分类决策树算法，与C4.5和ID3算法不同的是它使用基尼指数来代替信息增益。基尼指数代表了模型的不纯度，基尼指数越小，不纯度越低，特征越好。与C4.5相同，CART算法处理连续值得时候需要将其离散化。

7.Naive Baye

是以贝叶斯为基础，使用概率统计的知识对样本就行分类。由于有着坚实的数学基础，所以贝叶斯算法的误判率是很低的。贝叶斯的特点是结合先验和后验概率，避免了只是用先验概率的主观偏见。

8.PageRank

PageRank根据网页被其他网站链接的次数来衡量网站的价值，被链接的次数越多，说明网站的价值越高。

九岁ya

发布了43 篇原创文章 · 获赞 45 · 访问量 2万+

私信关注