菜鸟学习记001 ---------机器学习--------十分钟看懂决策树

本文为学习笔记,供自己复习回顾,分享,交流,如果专家们发现谬误之处欢迎批评与修正。

----------------------------------------------------------------------------------------------------------------------------

1. 什么是决策树?

决策树是一种类流程图的树状结构,一般用于进行分类与预测,有点类似与人的思考决策过程。而且优势在于其可视化分类规则增强了他的可解释性。

比如,小王妈妈总是让小王相亲,每次遇到的姑娘都不符合他的标准,而且那么多的姑娘照片让他自己看,他也看不过来,不如电脑帮他看吧。

那么问题来了,这个姑娘好看么?

什么叫好看?高鼻梁?大眼睛?皮肤白?。。。。。等等,那我们先看看是不是高鼻梁,再看看是不是大眼睛,,,,,,经历了一系列复杂的判断,我发现这个姑娘确实是我的菜。那好,这次这个姑娘我没追到,我再看看其他姑娘符不符合我的规则,是不是我的菜。

                                                                                

                                                                                   周文华《机器学习》中的西瓜问题

2.如何构造决策树?

既然你在思考这个姑娘好不好看,那你肯定有自己的一套规则了吧。那么你的一套规则是怎样的,总不能说什么事都十全十美,我喜欢高鼻梁,大眼睛,皮肤白的女生,这样的女生才算好看,你肯定得分个主次吧,比如果皮肤白对于我来说比高鼻梁更重要,我更喜欢皮肤白的女生。

所以决策树也得像人一样偏爱某些女孩,但不像人一样感性说好看就好看,你得给他定些规则,而且每种规则都依据不同的标准。

2.1 划分选择

我们希望决策数的分支结点所包含的样本尽可能属于同一类别,即节点的 “纯度” 高,也就是说,我们更希望一下子就能判断这个姑娘是不是好看了,而不是琢磨半天发现这姑娘不好看。那么我们就得选最优属性了,也就是说,对于小王来说,高鼻梁女生一定好看,那么这个属性一下子就判断出来了,所以“纯度” 很高。

2.1.1 信息增益

首先引入一个概念,信息熵,说的是信息的混乱程度,信息熵越小,混乱程度越小,"纯度“ 越高。

当前集合D中第k类样本所占比例为Pk, 则D的信息熵定义为:

所以我们需要计算某一属性a对集合D的信息增益,如下,

V是用a划分产生的分支,之后再赋予比例权重,意味着样本数越多的分支节点影响越大。

所以

就是我们的选择标准,选择最大信息增益来进行划分。

ID3算法就是用信息增益来选择划分属性。

2.1.2 增益率

信息增益有弊端啊,他喜欢取值数目较多的属性,所以来了新的叫增益率,公式先看下,

其中

为属性a的固有值,属性的取值数目越小,IV越大,这样可以调整信息增益的弊端,但是也同时带来了对属性少的偏好,但是我们在这里并不是直接使用这个公式,而是使用了一个启发式,先从候选属性中找出信息增益高于平均水平的属性,之后再选择增益率最高的,C4.5使用的是这种划分依据。

2.1.3 基尼指数

Gini 反应的是从数据集D中随机抽取连哥哥样本,其类别标记不一致的概率,因此Gini越小,纯度越高。

对于某一属性a的基尼指数定义如下,

因此,CART 决策树使用的就是最小基尼不纯度来选择最优属性划分。

2.2 剪枝

决策树不像人一样判断一下就完了,为了追求完美决策树往往重复了很多次同一属性,这样就容易造成过拟合,也就是说美女没看几个,净仔细看了,结果往大街上一走,看谁都叫美女。

所以为了避免这样的事情发生,我们得让决策树不是那么的完美,所以我们引入了剪枝的方法,剪枝分为两种前剪枝和后剪枝

这里引用周文华老师书中的图片,因为我觉得不用我解释也都一目了然了。

2.2.1 前剪枝

前剪枝就是说,我选了个属性划分后,我来判断下一个属性对于验证集合的精度是否提高,如果不提高,我们就不再进行了。

2.2.2 后剪枝

后剪枝就是说,我们都画出来了,该啰嗦的地方都整了,现在我们就来删废话吧,看看删除后是不是提高了精度。

一般情况下,后剪枝保留更多,欠拟合风险更小,所以一般情况下使用后剪枝。

3.总结

1.决策树一般用于分类预测,可解释强。

2.决策树构造两步走,属性划分和剪枝,气质属性根据不同划分有不同算法,剪枝分为前后两种。

参考:1.周志华《机器学习》

           2. Michael 《数据挖掘导论》

猜你喜欢

转载自blog.csdn.net/qweqwrfdsf/article/details/81069922