数据挖掘经典算法

先描述各种算法的基本知识，后续会推出所有单个算法的具体描述、推导、代码。

C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1.用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2.在树构造过程中进行剪枝；
3.能够完成对连续属性的离散化处理；
4.能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解，准确率较高。
其缺点是:在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效(相对的CART算法只需要扫描两次数据集，以下仅为决策树优缺点)。
优点:计算复杂度不高，输出结果易于理解,对中间值的缺失不敏感，可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

K-means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

优点:容易实现。
缺点:可能收敛到局部最小值，在大规模数据集上收敛较慢。
适用数据类型:数值型数据。

数据挖掘（二）-经典算法

数据挖掘经典算法

C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

K-means算法

猜你喜欢