ID3、C4.5、cart决策树的比较

(1)公式:

(2)ID3 算法

缺点:

  •  ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息.
  • ​ ID3算法只能对描述属性为离散型属性的数据集构造决策树

(3)C4.5算法

    做出的改进(为什么使用C4.5要好)

  • ​  用信息增益率来选择属性
  • ​  可以处理连续数值型属性
  • ​ 采用了一种后剪枝方法
  • ​ 对于缺失值的处理

C4.5算法的优缺点

​     优点:

  • ​ 产生的分类规则易于理解,准确率较高。

​     缺点:

  • ​ 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
  • ​ 此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

(4)CART算法

CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。C4.5不一定是二叉树,但CART一定是二叉树。

(5)如何评估分割点的好坏

如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,那么就是一个好分割点。

猜你喜欢

转载自blog.csdn.net/qq_39197555/article/details/115321798
今日推荐