李航统计学习第五章-决策树

文章目录

1、一些信息论概念

熵
条件熵
互信息、条件熵、联合熵区别

2、特征选择

信息增益
信息增益比
基尼指数

3、决策树算法

ID3算法 — 利用信息增益选择特征
C4.5算法 — 利用信息增益比选择特征
Cart 算法 — Gini基尼指数

4、剪枝算法

1、一些信息论概念

参考 https://blog.csdn.net/ranghanqiao5058/article/details/78458815

熵

如果本来一件事情发生的概率是50%，那么如果我知道了这件事情，那么这个信息就是有价值的。

条件熵

互信息、条件熵、联合熵区别

2、特征选择

信息增益

相当于信息论中的互信息，知道一个信息不确定性减少的程度的大小，信息增益越大，代表这个信息越有价值。

信息增益

信息增益计算方式
其中，K为类别个数，N为样本个数。特征A可以当为X输入，D可以当成整个样本和标签。

统计学习书上面的公式太难理解，用正常方式我推不出来，自己写了一版。

信息增益比

为了解决信息增益一直选择增益取值最大的那个。我的理解，为了增加泛化能力，像DQN中，不是每次选择max Q 那个，而是增加一些随机性。

基尼指数

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a分隔后集合D的不确定性，基尼指数越大，样本的不确定性就越大。

3、决策树算法

总的思想就是设定阈值，没有到达的话就不断向下继续if,then逻辑，到达阈值的话，利用投票法设置当前分支应该属于的类。

ID3算法 — 利用信息增益选择特征

C4.5算法 — 利用信息增益比选择特征

Cart 算法 — Gini基尼指数

与上面两个决策树不同的是，Cart的准则是取每次基尼系数最小的那个
信息增益，信息增益比意味着知道这个特征信息对最终决策的不确定减少的程度。
基尼系数意味着以这个特征信息作为条件，得到的最终结果的不确定性，自然和上面的两个指标opposite.

4、剪枝算法

a 决策树生成：基于训练集生成，生成的决策树要尽量的大
b 决策树剪枝：基于验证集剪枝。

决策树损失函数：计算叶节点的熵 + 一个正则化（叶节点的数量）

Cart剪枝：其中g(t)是让剪枝前后的树相等，反求alpha得到

图解Cart剪枝算法