机器学习----决策树

一、提纲

这里写图片描述

二、什么是决策树

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

这里写图片描述

三、属性的分裂

属性的字段类型:

Nominal(类别型)
Ordinal(有序型)
Continuous(连续型)

分裂的数量

二分叉
多分叉

四、怎么判断一个分裂的最好

节点的不纯度impurity

这里写图片描述

Gini系数

                                                                                              这里写图片描述

                                                                这里写图片描述

Entropy(熵)

                                                                                              这里写图片描述

两种判断方法的比较

最后一种叫分类误差
这里写图片描述

五、最佳分裂

信息增益Gain

这里写图片描述

Gain最大,分裂xiao过最好,也就是GINI系数最小的时候就最好的时候

这里写图片描述

Gain Ratio信息增益率

为了完善分类的信息增益,导入Gain Ratio,即信息增益率

这里写图片描述

六、决策树算法对比

ID3 处理分类型的变量
C4.5 处理连续型变量,可以处理缺失值
CART 既能做分类,也能做回归,但是只能做二分类树

三者比较

这里写图片描述

七、剪枝

为什要剪枝

这里写图片描述

预剪枝

将一颗子树的节点全部删除
这里写图片描述

后剪枝

这里写图片描述

七、代码部分

后期会写项目的时候写完整的解析
这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述
这里写图片描述

八、参数调优

调节部分如下:
这里写图片描述

猜你喜欢

转载自blog.csdn.net/sakura55/article/details/80786499