机器学习之决策树算法详解

1-1 基本流程

一、概念：

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。

二、划分依据：

①熵

物理学上，熵 Entropy 是“混乱” 程度的量度。
系统越有序，熵值越低；系统越混乱或者分散，熵值越高
信息理论：
1、当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。
2、当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。这是从信息的有序性上进行的描述。

假如事件A的分类划分是（A1,A2,…,An），每部分发生的概率是(p1,p2,…,pn)，那信息熵定义为公式如下：

E n t (A) = - \sum_{k = 1}^{n} p_{k} l o g_{2} p_{k}

$Ent(A)=-\sum_{k=1}^np_klog_2p_k$
二分法：
如果有32个球队，准确的信息量应该是：
H = -（p1 * logp1 + p2 * logp2 + … + p32 * logp32），其中 p1, …, p32 分
别是这 32 支球队夺冠的概率。当每支球队夺冠概率相等都是 1/32 的时：H = -（32 * 1/32 * log1/32） = 5 每个事件概率相同时，熵最大，这件事越不确定。

②信息增益及增益率

信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
信息增益 = entroy(前) - entroy(后)
信息增益公式如下：
D：为样本集
Ent(D):整体熵
a:离散型属性
v: 是a属性里可能的取值节点
D^v：第v个分支节点包含了D中所有在属性a上取值为a\^v的样本

G a i n (D, a) = E n t (D) - \sum_{v = 1}^{v} \frac{D^{v}}{D} E n t (D^{v})

$Gain(D,a) = Ent(D) - \sum_{v=1}^v\frac{D^v}{D}Ent(D^v)$
增益率：增益比率度量是用前面的增益度量Gain(S，A)和所分离信息度量SplitInformation(如上例的性别，活跃度等)的比值来共同定义的。
公式如下：

G a i n R a t i o (S_{A}, A) = \frac{G a i n (S_{A}, A)}{S p l i t I n f o r m a t i o n (S_{A}, A)}

$GainRatio(S_A,A)= \frac{Gain(S_A,A)}{SplitInformation(S_A,A)}$

S p l i t I n f o r m a t i o n (S_{A}, A) = - \sum_{m \in M} \frac{| S_{A m} |}{| S_{A} |} l o g \frac{S_{A} m}{S_{A}}

$SplitInformation(S_A,A) = -\sum_{m\in M}\frac{|S_{Am}|}{|S_A|}log\frac{S_Am}{S_A}$

例子：
如下图，第一列为论坛号码，第二列为性别，第三列为活跃度，最后一列用户是否流失
这里写图片描述

其中Positive为正样本（已流失）， Negative为负样本
（未流失），下面的数值为不同划分下对应的人数。可得到三个熵：
整体熵：

E (S) = - \frac{5}{15} l o g_{2} (\frac{5}{15}) - \frac{10}{15} l o g_{2} (\frac{10}{15}) = 0.9182

$E(S) = -\frac{5}{15}log_2(\frac{5}{15}) - \frac{10}{15}log_2(\frac{10}{15}) =0.9182$
性别熵：

E (g_{1}) = - \frac{3}{8} l o g_{2} (\frac{3}{8}) - \frac{5}{8} l o g_{2} (\frac{5}{8}) = 0.9543

$E(g_1) = -\frac{3}{8}log_2(\frac{3}{8}) - \frac{5}{8}log_2(\frac{5}{8}) =0.9543$

E (g_{2}) = - \frac{2}{7} l o g_{2} (\frac{2}{7}) - \frac{5}{7} l o g_{2} (\frac{5}{7}) = 0.8631

$E(g_2) = -\frac{2}{7}log_2(\frac{2}{7}) - \frac{5}{7}log_2(\frac{5}{7}) =0.8631$
性别信息增益：

I G a i n (S, g) = E (s) - \frac{8}{15} E (g_{1}) - \frac{7}{15} E (g_{2}) = 0.0064

$IGain(S,g) =E(s) -\frac{8}{15}E(g_1) - \frac{7}{15}E(g_2) =0.0064$
活跃度熵：
E(a1) = 0
E(a2) = 0.7219
E(a3) = 0

活跃度信息增益：

扫描二维码关注公众号，回复： 2158887 查看本文章

I G a i n (S, g) = E (s) - \frac{6}{15} E (a_{1}) - \frac{5}{15} E (a_{2}) - \frac{4}{15} E (a_{3}) = 0.6776

$IGain(S,g) =E(s) -\frac{6}{15}E(a_1) - \frac{5}{15}E(a_2)- \frac{4}{15}E(a_3) =0.6776$
活跃度的信息增益比性别的信息增益大，也就是说，活跃度对用户流失的影响比性别大。
在做特征选择或者数据分析的时候，我们应该重点考察活跃度这个指标。

③基尼值和基尼指数

基尼值Gini（D）：从数据集D中随机抽取两个样本，起类别标记不一致的概率，故，Gini
（D）值越小，数据集D的纯度越高。
基尼系数公式如下：

G i n i (D) = 1 - \sum_{k = 1}^{| y |} p_{k}^{2}

$Gini(D) = 1-\sum_{k=1}^{|y|}p_k^2$
基尼指数Gini_index（D）：一般，选择使划分后基尼系数最小的属性作为最优化分属性
基尼指数公式如下：

G i n i_i n d e x (D, a) = \sum_{v = 1}^{v} \frac{| D^{v} |}{| D |} G i n i (D^{v})

$Gini\_index(D,a) = \sum_{v=1}^v\frac{|D^v|}{|D|}Gini(D^v)$
基尼增益：

G i n i (D, a) = G i n i (D) - \sum_{v = 1}^{v} \frac{| D^{v} |}{| D |} G i n i (D^{v})

$Gini(D,a) = Gini(D) - \sum_{v=1}^v\frac{|D^v|}{|D|}Gini(D^v)$
例题：
这里写图片描述

总结如下：

类型	拖欠	不拖欠	汇总
整体	3	7	10
有房	0	3	3
没房	3	4	7
单身	2	2	4
结婚	0	4	4
离婚	1	1	2

1，对数据集非类标号属性{是否有房，婚姻状况，年收入}分别计算它们的Gini系数增益，取Gini系数增益值最大的属性作为决策树的根节点属性。

2、根节点的Gini系数为：
Gini(是否拖欠贷款)

G i n i (D) = 1 - (\frac{3}{10})^{2} - (\frac{7}{10})^{2} = 0.42

$Gini(D)=1-(\frac{3}{10})^2-(\frac{7}{10})^2=0.42$
3，当根据是否有房来进行划分时， Gini系数增益计算过程为：
Gini(左子节点)=

G i n i (y) = 1 - (\frac{0}{3})^{2} - (\frac{3}{3})^{2} = 0

$Gini(y)=1-(\frac{0}{3})^2-(\frac{3}{3})^2=0$
Gini(右子节点)=

G i n i (n) = 1 - (\frac{3}{7})^{2} - (\frac{4}{7})^{2} = 0.4898

$Gini(n)=1-(\frac{3}{7})^2-(\frac{4}{7})^2=0.4898$
｛是否有房｝=

G i n i (D) - \frac{3}{10} G i n i (y) - \frac{7}{10} G i n i (n) = 0.42 - \frac{3}{10} * 0 - \frac{7}{10} * 0.4898 = 0.077

$Gini(D)-\frac{3}{10}Gini(y)-\frac{7}{10}Gini(n)=0.42-\frac{3}{10}*0-\frac{7}{10}*0.4898=0.077$
4，若按婚姻状况属性来划分，属性婚姻状况有三个可能的取值{married，
single， divorced}，分别计算划分后的Gini系数增益。
分组为{married} | {single,divorced}时

类型	拖欠	不拖欠	汇总
整体	3	7	10
有房	0	3	3
没房	3	4	7
结婚	0	4	4
单身,离婚	3	3	6

｛婚姻状况｝=

0.42 - \frac{4}{10} * 0 - \frac{6}{10} * [1 - (\frac{3}{6})^{2} - (\frac{3}{6})^{2}] = 0.12

$0.42-\frac{4}{10}*0-\frac{6}{10}*[1-(\frac{3}{6})^2-(\frac{3}{6})^2] = 0.12$
当分组为{single} | {married,divorced}时

类型	拖欠	不拖欠	汇总
整体	3	7	10
有房	0	3	3
没房	3	4	7
单身	2	2	4
离婚，结婚	1	5	6

｛婚姻状况｝=

0.42 - \frac{4}{10} * 0.5 - \frac{6}{10} * [1 - (\frac{1}{6})^{2} - (\frac{5}{6})^{2}] = 0.053

$0.42-\frac{4}{10}*0.5-\frac{6}{10}*[1-(\frac{1}{6})^2-(\frac{5}{6})^2] = 0.053$
当分组为{divorced} | {single,married}时

类型	拖欠	不拖欠	汇总
整体	3	7	10
有房	0	3	3
没房	3	4	7
离婚	1	1	2
单身，结婚	2	6	8

｛婚姻状况｝=

0.42 - \frac{2}{10} * 0.5 - \frac{8}{10} * [1 - (\frac{2}{8})^{2} - (\frac{6}{8})^{2}] = 0.053

$0.42-\frac{2}{10}*0.5-\frac{8}{10}*[1-(\frac{2}{8})^2-(\frac{6}{8})^2] = 0.053$
对比计算结果，根据婚姻状况属性来划分根节点时取Gini系数增益最大的分组作为划分结果即
{married} | {single,divorced}

小结：
一，决策树构建的基本步骤如下：
1. 开始讲所有记录看作一个节点
2. 遍历每个变量的每一种分割方式，找到最好的分割点
3. 分割成两个节点N1和N2
4. 对N1和N2分别继续执行2-3步，直到每个节点足够“纯”为止。
[Source]https://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html

二，决策树的变量可以有两种：
1）数字型（Numeric）：变量类型是整数或浮点数，如前面例子中的“年收入”。用“>=”，
“>”,“<”或“<=”作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。
2）名称型（Nominal）：类似编程语言中的枚举类型，变量只能重有限的选项中选取，比如前面例子中的“婚姻情况”，只能是“单身”，“已婚”或“离婚”，使用“=”来分割。

三，如何评估分割点的好坏？
如果一个分割点可以将当前的所有节点分为两类，使得每一类都很“纯”，也就是同一类的记录较多，那么就是一个好分割点。
比如上面的例子，“拥有房产”，可以将记录分成了两类，“是”的节点全部都可以偿还债务，非常
“纯”；“否”的节点，可以偿还贷款和无法偿还贷款的人都有，不是很“纯”，但是两个节点加起来的纯度之和与原始节点的纯度之差最大，所以按照这种方法分割。构建决策树采用贪心算法，只考虑当前纯度差最大的情况作为分割点。

1-2 常见决策树类型及剪枝

1为什么要剪枝

随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。
原因1：噪声、样本冲突，即错误的样本数据。
原因2：特征即属性不能完全作为分类标准。
原因3：巧合的规律性，数据量不够大。

2常用的剪枝方法

1.1 预剪枝：
（1）每一个结点所包含的最小样本数目，例如10，则该结点总样本数小于10时，则不
再分；
（2）指定树的高度或者深度，例如树的最大深度为4；
（3）指定结点的熵小于某个值，不再划分。随着树的增长，在训练样集上的精度是调上升的，然而在独立的测试样例上测出的精度先上升后下降。

1.2 后剪枝：
后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。
主要有四种：
（1）REP-错误率降低剪枝
（2）PEP-悲观剪枝
（3）CCP-代价复杂度剪枝
（4）MEP-最小错误剪枝