决策树信息增益

决策树和集成算法都是树模型

决策树:从根节点一步步走到叶子节点,所有的数据都会落到叶子节点,既可以做分类也可以做回归。

一颗树有三种节点组成,根节点,中间几点,叶子节点。根节点是第一个选择节点,也是最重要的一个选择特征。叶子节点是存放最终的结果。

决策树的训练和测试

训练是建立一棵树。

测试是让数据从根节点走到叶子节点。

如何切分特征:

通过一种衡量标准,计算在不同特征下的值。选择最好的一个作为根节点。

决策树的三种算法:

       1.ID3      信息增益

       2.C4.5     信息增益率

       3.CART   基尼系数

决策树减枝原因:容易出现过拟合,只要树足够大,能够把所有的数据分开。

减枝分为预剪枝和后剪枝。

预剪枝:在建立树的过程中进行剪枝。---实用

后剪枝:在建立决策树以后剪枝。

剪枝策略:

预剪枝策略:限制树的深度,叶子节点的个数,信息增益量的大小等。

后剪枝策略:通过一定的衡量标准,比如叶子节点个数越多,损失越大。

猜你喜欢

转载自blog.csdn.net/u011243684/article/details/85033542
今日推荐