决策树（DecisionTree）

一、决策树前置知识准备

1.1 信息熵

信息熵也叫香农熵，其计算公式为：

1.2 条件熵

在给定X的条件下，所有的不同x值的条件下Y的熵的平均值叫做条件熵。

计算公式为：

1.3 纯度度量的公式(值越大越不纯)

1）信息熵

2）基尼系数

3）错误率

二、决策树

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

2.1 决策树的构建方法：

决策树的构建是决策树算法的重点。在KNN中我们讲过KD-Tree的构建，决策树的构建方法与此类似。不同的是KD-Tree中的划分方法是具有最大方差的特征进行划分。决策树的划分指标是要求划分的叶子节点的数据足够的“纯”。因此，在决策树（分类）中，我们使用其他的划分指标，如ID3的信息增益，C4.5的信息增益率，CART中的基尼增益率划分等。

在回归树中，我们使用MSE或者MAE作为数据划分指标，最后的回归值为待测数据点所在的叶子节点的数据点的样本平均值。

决策树的划分是一种“贪心”的划分，只考虑当前划分的特征能否使得数据足够的纯，不考虑最终的结果，它是不能够回溯的。

具体的构建方法如下：

1）计算每个特征的“纯”度值的划分指标（就是上面提到的信息增益、信息增益率、基尼增益率等）的值。

2）选择“纯”度较低的特征（也就是最优的划分特征）进行数据划分，得到相应的子节点。

3）重复上面两个步骤，继续划分，直到达到停止条件则停止构建。

决策树划分的停止条件主要有：

1）每个叶子节点只有一种类型的时候则停止构建

2）决策树的层数、迭代次数或者节点中的数据点的个数少于给定阈值，则停止构建。

考虑到数据点较多的情况下按照停止条件1构建得到的树深度过大（会出现过拟合问题），所以一般采用停止条件2来构建决策树。

2.2 决策树常见的几种算法

1） ID3算法