决策树之C4.5算法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ACdreamers/article/details/44664571

C4.5算法是机器学习中的一个重要的决策树算法,它是对ID3算法的改进,相对于ID3算法主要有以下几个改进

  (1)用信息增益率来选择属性

  (2)在决策树的构造过程中对树进行剪枝

  (3)对非离散数据也能处理

  (4)能够对不完整数据进行处理

接下来分别详细讲述这几点的改进方案

(1)用信息增益率来选择属性

    在ID3算法中,我们知道是用信息增益来选择属性的,而信息增益的缺点是比较偏向选择取值较多的属性,

    在C4.5算法中,除了一项分裂信息来惩罚取值更多的属性,所以得到如下公式

                        

    其中表示信息增益,而表示分裂信息,它的计算公式如下

 

                        

    表示当前属性的所有取值。

(2)在决策树的构造过程中对树进行剪枝

    在C4.5算法中,采用了悲观剪枝的方法,它使用训练集生成决策树,又用训练集来进行剪枝。

    悲观剪枝法的基本原理参考:http://www.cnblogs.com/zhangchaoyang/articles/2842490.html

 

(3)对非离散数据也能处理

 

    其实C4.5算法对连续性数据的处理也是当作离散数据处理的,具体可以参考上面的链接。

最后介绍一个机器学习软件weka,weka中C4.5算法的使用参考:http://www.docin.com/p-27992090.html

猜你喜欢

转载自blog.csdn.net/ACdreamers/article/details/44664571