决策树和集成算法都是树模型
决策树:从根节点一步步走到叶子节点,所有的数据都会落到叶子节点,既可以做分类也可以做回归。
一颗树有三种节点组成,根节点,中间几点,叶子节点。根节点是第一个选择节点,也是最重要的一个选择特征。叶子节点是存放最终的结果。
决策树的训练和测试
训练是建立一棵树。
测试是让数据从根节点走到叶子节点。
如何切分特征:
通过一种衡量标准,计算在不同特征下的值。选择最好的一个作为根节点。
决策树的三种算法:
1.ID3 信息增益
2.C4.5 信息增益率
3.CART 基尼系数
决策树减枝原因:容易出现过拟合,只要树足够大,能够把所有的数据分开。
减枝分为预剪枝和后剪枝。
预剪枝:在建立树的过程中进行剪枝。---实用
后剪枝:在建立决策树以后剪枝。
剪枝策略:
预剪枝策略:限制树的深度,叶子节点的个数,信息增益量的大小等。
后剪枝策略:通过一定的衡量标准,比如叶子节点个数越多,损失越大。