【学习笔记】西瓜书机器学习之第四章:决策树

1.什么是决策树?

决策树是一种常见的机器学习方法,以二分类为例,根据一系列的子决策来判断出样本是否为正例。 决策的过程是选择一个属性,来进行判断。以西瓜问题为例,假设已经训练好了一个模型。我们有一个西瓜,先看它的色泽,色泽为青绿色,然后一步一步往下走,最后得到这个西瓜是否为正例(好瓜)
在这里插入图片描述

2. 三种选择最优化分属性的方法

现在我们知道了决策树是如何工作的,但是该如何选择每个子决策所对应的属性呢?“纯度”将帮助我们解决这一问题,我们当然希望决策树分支节点所包含的样本尽可能属于同一类别,因此纯度越高越好。

2.1 信息增益(越大越好)

信息增益 = 信息熵-条件熵

条件熵:在已知样本属性a的取值下,度量样本集合纯度的一种指标。j是代表属性a的第j个值。
图一
著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性的。信息增益越大,意味着纯度提升越大。但是信息增益准则对可取数目较多的属性有所偏好。比如说每一个样本都具有编号,将编号加入到学习器中来的时候,毫无疑问在选择最优化分属性的时候编号将被选择,但是这样的模型完全不具备泛化能力。

2.2 信息增益率(越大越好)

猜你喜欢

转载自blog.csdn.net/weixin_52589734/article/details/112982384