决策树 ( decision tree)详解

决策树算法的基本流程

决策树顾名思义就是基于树对问题的决策和判别的过程，是人类在面对决策问题时一种很自然的处理机制，下面有个例子通过决策树得出最终的结果。

我们所要做的就是去得到这样一个树去帮助我们决策问题，使样本通过这个树实现分类。一般来说，一棵树包含一个根节点，若干个内部节点和若干个叶子节点；叶子节点对应于决策结果，其他每个节点则对应一个属性测试；每个节点包含的样本集合根据属性测试的结果被划分到子节点中；根节点包含样本的全集。从根节点到每个叶子节点的路径对应了一个判定测试序列。决策树学习的目的就是为了产生一个泛化能力强，即处理未见实例能力强的决策树，它的基本流程遵循简单直观的分而治之策略，距地步骤如下：

从伪代码函数显然可以看到决策树的生成是一个递归的过程，在决策树的生成过程中有三种情况会导致树停止生成递归返回：

当前叶子节点包含样本属于同一类别，此时无需划分。
当前属性集A为空，，或者是样本在所有属性上取值相同，无法划分。（此时标记为该节点所含样本最多的类别，属于后验分布）
当前节点样本集合为空，不能划分。（此时把父节点的样本分布作为当前节点的先验分布）

划分选择

基本的决策树建立过程我们已经了解，我们也会意识到决策树选择最重要的部分就是第八行，即如何选择最有划分决策树的属性，一般而言，随着划分结果的不断进行，我们所希望的是分支节点所包含的类别尽可能的属于同一个类别，即节点的纯度越来越高。

信息增益 (ID3决策树)：

信息熵是度量样本集合纯度最常用的一种指标，假定样本当前集合D中年第k类样本所占比例为,则D的信息熵定义为：

Ent(D)的值越小，测D的纯度越高。（信息熵是信息论里面的概念如果不太理解可以阅读信息量→熵）

假设离散的属性值 a 有V个可能的取值，若使用a来对样本进行划分，测绘产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为的样本，记为，我们可以根据信息熵的式子计算出的信息熵，在考虑到不同的分支节点所包含的样本数不同，给分支节点赋予权重，即样本数越多的分支节点的影响越大，于是可以计算出属性a对样本集合D进行划分后所获得的信息增益：