决策树系列（四）——C4.5

预备知识：决策树、ID3

如上一篇文章所述，ID3方法主要有几个缺点：一是采用信息增益进行数据分裂，准确性不如信息增益率；二是不能对连续数据进行处理，只能通过连续数据离散化进行处理；三是没有采用剪枝的策略，决策树的结构可能会过于复杂，可能会出现过拟合的情况。

C4.5在ID3的基础上对上述三个方面进行了相应的改进：

a） C4.5对节点进行分裂时采用信息增益率作为分裂的依据；

b）能够对连续数据进行处理；

c） C4.5采用剪枝的策略，对完全生长的决策树进行剪枝处理，一定程度上降低过拟合的影响。

1.采用信息增益率作为分裂的依据

信息增益率的计算公式为：

其中表示信息增益，表示分裂子节点数据量的信息增益，计算公式为：

其中m表示节点的数量，Ni表示第i个节点的数据量，N表示父亲节点的数据量，说白了，其实是分裂节点的熵。

信息增益率越大，说明分裂的效果越好。

以一个实际的例子说明C4.5如何通过信息增益率选择分裂的属性：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　表1 原始数据表

当天天气	温度	湿度	日期	逛街
晴	25	50	工作日	否
晴	21	48	工作日	是
晴	18	70	周末	是
晴	28	41	周末	是
阴	8	65	工作日	是
阴	18	43	工作日	否
阴	24	56	周末	是
阴	18	76	周末	否
雨	31	61	周末	否
雨	6	43	周末	是
雨	15	55	工作日	否
雨	4	58	工作日	否

以当天天气为例：

一共有三个属性值，晴、阴、雨，一共分裂成三个子节点。

根据上述公式，可以计算信息增益率如下：

所以使用天气属性进行分裂可以得到信息增益率0.44。

2.对连续型属性进行处理

C4.5处理离散型属性的方式与ID3一致，新增对连续型属性的处理。处理方式是先根据连续型属性进行排序，然后采用一刀切的方式将数据砍成两半。

那么如何选择切割点呢？很简单，直接计算每一个切割点切割后的信息增益，然后选择使分裂效果最优的切割点。以温度为例：

从上图可以看出，理论上来讲，N条数据就有N-1个切割点，为了选取最优的切割垫，要计算按每一次切割的信息增益，计算量是比较大的，那么有没有简化的方法呢？有，注意到，其实有些切割点是很明显可以排除的。比如说上图右侧的第2条和第3条记录，两者的类标签（逛街）都是“是”，如果从这里切割的话，就将两个本来相同的类分开了，肯定不会比将他们归为一类的切分方法好，因此，可以通过去除前后两个类标签相同的切割点以简化计算的复杂度，如下图所示：

从图中可以看出，最终切割点的数目从原来的11个减少到现在的6个，降低了计算的复杂度。

确定了分割点之后，接下来就是选择最优的分割点了，注意，对连续型属性是采用信息增益进行内部择优的，因为如果使用信息增益率进行分裂会出现倾向于选择分割前后两个节点数据量相差最大的分割点，为了避免这种情况，选择信息增益选择分割点。选择了最优的分割点之后，再计算信息增益率跟其他的属性进行比较，确定最优的分裂属性。

3. 剪枝

决策树只已经提到，剪枝是在完全生长的决策树的基础上，对生长后分类效果不佳的子树进行修剪，减小决策树的复杂度，降低过拟合的影响。

C4.5采用悲观剪枝方法（PEP）。悲观剪枝认为如果决策树的精度在剪枝前后没有影响的话，则进行剪枝。怎样才算是没有影响？如果剪枝后的误差小于剪枝前经度的上限，则说明剪枝后的效果与更佳，此时需要子树进行剪枝操作。

进行剪枝必须满足的条件：