机器学习算法——决策树（Decision Tree）

决策树在分类、预测、规则提取等方面有着广泛应用，是一种基本的分类与回归方法。包括ID3 、c4.5、CART算法。决策树的生成是一个递归的过程。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。与其他算法相比，决策树的原理浅显易懂，计算复杂度较小，而且输出结果易于理解。

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点与有向边组成。节点有两种类型:内部结点和叶节点，内部结点表示一个特征或者属性，叶节点表示一个类。

分类的时候，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点；此时，每一个子节点对应着该特征的一个取值。如此递归向下移动，直至达到叶节点，最后将实例分配到叶节点的类中。

决策树学习算法包括特征选择，决策树的生成与剪枝过程。决策树的学习算法通常是通过递归来选择最优特征，并用最优特征对数据集进行分割。开始时，构建根结点，选择最优特征，该特征有几种值就分割为几个子集，每个子集分别递归调用此方法，返回节点就是上一层的子节点，直到所有特征都已经用完，或者数据集只有一维特征为止。

我们从上面可以看出特征选择的好坏直接影响到决策树模型的好坏。如何选择最优划分属性。一般而言，随着划分的不断进行，我们希望决策树的分支节点所包含的样本尽可能的属于同一类别。即节点的纯度越高。于是特征选择问题就转化为了纯度的定义问题。

熵：

表示变量不确定性的度量，假设当前样本集合D中第k类样本所占的比例为pk(k=1,2,3,....|y|)则D的信息熵定义为：

另外，当对数的底为2时，熵的单位为bit,为e时，单位为nat.

熵越大，随机变量的不确定性就越大。当节点的类别为均匀分布时，信息熵为1.当只包含一个类时，信息熵为0.

信息增益：

信息增益的定义是分类前的节点信息熵减去分类后子节点熵的加权和。即不纯度的减少量，也是纯度的增加量。特征选择的规则是选择使节点信息增益最大的属性分割该节点。

假定离散属性a有v个可能的取值(a1,a2,a3,...av)，若使用a来对样本集进行划分，则会产生v个分支节点。其中第V个分支节点包含了样本集合D中在属性a上取值为av的样本Dv.我们可以根据信息熵的公式计算信息熵考虑到不同分支节点包含的样本数不同，样本数越多的分支节点权重越大，给分支节点赋予权重。可以计算出属性a作为划分属性，最后得到的信息增益如下: