决策树篇

决策树：

随机森林属于集成学习（Ensemble Learning）中的bagging算法。在集成学习中，主要分为bagging算法和boosting算法。我们先看看这两种方法的特点和区别。

bagging的算法过程如下：

boosting的算法过程如下：

对于训练集中的每个样本建立权值wi，表示对每个样本的关注度。当某个样本被误分类的概率很高时，需要加大对该样本的权值。
进行迭代的过程中，每一步迭代都是一个弱分类器。我们需要用某种策略将其组合，作为最终模型。（例如AdaBoost给每个弱分类器一个权值，将其线性组合最为最终分类器。误差越小的弱分类器，权值越大）

下面是将决策树与这些算法框架进行结合所得到的新的算法：

1）Bagging + 决策树 = 随机森林

2）AdaBoost + 决策树 = 提升树

3）Gradient Boosting + 决策树 = GBDT

**那么下面再介绍一下决策树：

在已知各种情况发生的概率的基础上，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

分类树（决策树）是一种监督学习的常用分类方法。监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先规定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类，这样的机器学习称之为监督学习。

决策树的优缺点：

优点：易于理解和实现，能够直接体现数据特点；能够在相对较短的时间内对大型数据源做出可行且效果良好的结果；易于通过静态测试来对模型进行评测；

缺点（重点）：对连续性的字段比较难预测；对有时间顺序的数据，需要很多的预处理的工作；当类别太多时，错误可能就会增加的比较快；一般的算法分类的时候，只能根据一个字段来分类