吃瓜教程—Task03(决策树)

在这里插入图片描述

知识点

决策树

逻辑角度:一堆if else语句的组合
几何角度:根据某种准则划分特征空间
最终目的:将样本越分越纯
 决策树学习的关键,是如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的纯度越来越高。
 决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的“分而治之”策略。如下图所示:
在这里插入图片描述

ID3决策树

自信息:(一个随机变量所含的信息)
在这里插入图片描述
条件熵:
在这里插入图片描述
信息增益:
在这里插入图片描述
 一般而言,信息增益越大,则意味着使用属性来进行划分所获得的“纯度提升”越大,因此,我们可用信息增益来进行决策树的划分属性选择。

C4.5决策树

 实际上,信息增益准则对可取值数目越多的属性有所偏好,如:把样本编号作为一个候选划分属性,信息增益为0.998。为减少这种偏好可能带来的不利影响,C4.5决策树采用增益率来选择最优划分属性。
在这里插入图片描述
 而只平衡了可取值数目多的时候,当可取值数目小的时候,增益率还是会增大,所以,C4.5采用启发式方法:先先出信息率高于平均水平的属性,然后再从中选择增益率最高的。

CART决策树

 CART决策树使用“基尼指数”来选择划分属性。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
注意:过在构造 CART 决策树时并不会严格按照此式来选择最优划分属性,主要是因为 CART 决策树是一棵二叉树,如果用上式去选出最优划分属性,无法进一步选出最优划分属性的最优划分点。
CART 决策树的构建过程—西瓜书例子:
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44195690/article/details/129166679