以下内容转载来源：http://www.cnblogs.com/pinard/p/6053344.html

一、决策树

1.决策树与随机森林都属于机器学习中监督学习的范畴，主要用于分类问题。
决策树算法有这几种：ID3、C4.5、CART（Classification And Regression Tree，二分决策树），基于决策树的算法有bagging、随机森林、GBDT等。
决策树是一种利用树形结构进行决策的算法，对于样本数据根据已知条件或叫特征进行分叉，最终建立一棵树，树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法。

引用别的文章的一个例子：

这是一张女孩对于不同条件的男性是否会选择见面的统计表，图中是否见面作为我们需要分类的结果，因此最后我们的结果无非就只是是和否两种情况。这是一个二分类的问题，但是需要判断的属性有多个，首先选哪个属性作为决策树的根节点呢，决策树怎么构建呢。但是从上图我们找到了一个结果为否的记录，因此如果一个男性在城市无房产、年收入小于 17w 且离过婚，则可以预测女孩不会跟他见面。

先通过城市是否拥有房产这条特征，把这10个人划分为2类

这个分类结果并不是很好，因为它没有将见面与不见面完全的分开，在算法中，当然不能凭我们的“感觉”去评价分类结果的好坏。我们需要用一个数去表示（即通过一个评价标准进行特征选取）

二、CART分类树算法的最优特征选择方法

注：决策树：在ID3算法中使用信息增益来选择特征，信息增益大的优先选择。在C4.5算法中，采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题，具体参见：https://www.cnblogs.com/pinard/p/6050306.html

CART分类树算法使用基尼系数来代替C4.5算法中中的信息增益比。（scikit-learn使用了优化版的CART算法作为其决策树算法的实现）

基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小。也就是说集合的纯度越高，特征越好，反之，集合越不纯。（即基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好）
即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

　具体的，在分类问题中，假设有K个类别，第k个类别的概率为, 则基尼系数的表达式为：

如果是二类分类问题，计算就更加简单了，如果属于第一个样本输出的概率是p，则基尼系数的表达式为： Gini(P)=2P(1-P)

对于个给定的样本D,假设有K个类别, 第k个类别的数量为,则样本D的基尼系数表达式为：

特别的，对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

注：为了进一步简化，CART分类树算法每次仅仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。这样一可以进一步简化基尼系数的计算，二可以建立一个更加优雅的二叉树模型。

例子如下：

对于上述的结果来讲（先通过城市是否拥有房产这条特征，把这10个人划分为2类），总的集合D被分为两个集合D1，D2，假设见面为1，不见面为0。

那么D1的不纯度为1-f1^2-f0^2，总数为5，见面的占了全部，则f1=1，f0=0，结果为0

D2的不纯度为1-f1^2-f0^2，f1=0.8，f0=0.2，结果为0.32 （2*f1*f0(f0即为1-)）

那么整个分类结果的Gini不纯度就是D1/D与0的乘积加上 D2/D与0.32的乘积，为0.16

Gini值代表了某一个分类结果的“纯度”，我们希望结果的纯度很高，这样就不需要对这一结果进行处理了。

从以上分析可以看出，Gini值越小，纯度越高，结果越好

三、CART分类树算法对于连续特征和离散特征处理的改进

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的是基尼系数。

　　具体的思路如下，比如m个样本的连续特征A有m个，从小到大排列为,则CART算法取相邻两样本值的平均数，一共取得m-1个划分点，其中第i个划分点Ti表示Ti表示为：。对于这m-1个点，分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为,则小于的值为类别1，大于的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与ID3或者C4.5处理离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。例如：回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，CART分类树会考虑把A分成{A1}和{A2,A3}{A1}和{A2,A3}, {A2}和{A1,A3}{A2}和{A1,A3}, {A3}和{A1,A2}{A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3}{A2}和{A1,A3},然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的节点。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

四、CART分类树建立算法的具体流程

　　上面介绍了CART算法的一些和C4.5不同之处，下面我们看看CART分类树建立算法的具体流程，之所以加上了建立，是因为CART树算法还有独立的剪枝算法这一块（见第六小节）

　　算法输入是训练集D，基尼系数的阈值，样本个数阈值。

　　输出是决策树T。

　　我们的算法从根节点开始，用训练集递归的建立CART树。

　　 1) 对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。

　　 2) 计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。

　　 3) 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见第三节。缺失值的处理方法（这里就不详述了，其可参见C4.5算法的处理）。

　　 4) 在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2.

　　 5) 对左右的子节点递归的调用1-4步，生成决策树。

　　对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

五、CART回归树建立算法

　　CART回归树和CART分类树的建立算法大部分是类似的，这里讨论不同的地方。

　　首先，我们要明白，什么是回归树，什么是分类树。两者的区别在于样本输出，如果样本输出是离散值，那么这是一颗分类树。如果样本输出是连续值，那么这是一颗回归树。

　　除了概念的不同，CART回归树和CART分类树的建立和预测的区别主要有下面两点：

1)连续值的处理方法不同

2)决策树建立后做预测的方式不同。

　　对于连续值的处理，我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型，但是对于回归模型，我们使用了常见的均方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：

对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

六、CART树算法的剪枝

　　由于决策时算法很容易对训练集过拟合，而导致泛化能力差，为了解决这个问题，我们需要对CART树进行剪枝，即类似于线性回归的正则化，来增加决策树的泛化能力。但是，有很多的剪枝方法，我们应该这么选择呢？CART采用的办法是后剪枝法，即先生成决策树，然后产生所有可能的剪枝后的CART树，然后使用交叉验证来检验各种剪枝的效果，选择泛化能力最好的剪枝策略。

　　也就是说，CART树的剪枝算法可以概括为两步，第一步是从原始决策树生成各种剪枝效果的决策树，第二部是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的数作为最终的CART树。

　　首先我们看看剪枝的损失函数度量，在剪枝的过程中，对于任意的一刻子树T,其损失函数为：

　　未完待续，后期进行补充…………

七、CART算法小结

　上面我们对CART算法做了一个详细的介绍，CART算法相比C4.5算法的分类方法，采用了简化的二叉树模型，同时特征选择采用了近似的基尼系数来简化计算。当然CART树最大的好处是还可以做回归模型，这个C4.5没有。下表给出了ID3，C4.5和CART的一个比较总结。

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持

　　看起来CART算法高大上，那么CART算法还有没有什么缺点呢？有！主要的缺点我认为如下：

　　1）应该大家有注意到，无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1，这里不多介绍。

　　2）如果样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。　　　

决策树（CART）