机器学习之决策树总结

一.熵的相关知识

1.熵，也称信息熵
是表示随机变量不确定性的度量，不确定性越大，熵越大，定义如下：
这里写图片描述
来理解一下，如果X的取值为固定某个值，这时不确定性最小，H(X)=-1*log1=0；
如果X服从均匀分布，这时不确定性最大，H(X)=log n,
所以H(X)的范围为 0<=H(X)<=log n
2.条件熵的定义：

3.信息增益：
表示得知特征X的信息而使得类Y的信息的熵减小的程度。
这里写图片描述
我们希望决策树的分类确定性越强，这样损失就越小，也就是说决策树的分支节点所包含的样本尽可能属于同一类，这样结点的熵就越小，而信息增益表示特征A来分类使得样本D的熵减小的程度，所以我们选择信息增益最大的特征来作为切分点。
看看g(D,A)的定义,H(D)表示数据集D的熵，H(D|A)表示在特征A给定的条件下的熵，g(D,A)是他们的差，就表示由于特征A是的数据集D的熵减小的程度。
计算方式如下：
这里写图片描述
ID3决策树就是信息增益为准则选择划分属性。

二.信息增益率：

前面的信息增益准则对可能取值数目教=较多的属性有所偏好，为减少这种偏好带来的不利影响，C4.5算法采用信息增益率来选择最优划分特征：
这里写图片描述
V表示属性a取值的个数，Dv表示每个取值的个数。
同理，增益率对取值较少的属性偏好，所以C4.5的选取方式为：

注意，ID3和C4.5构造决策树时每用一个属性就舍弃掉一个。