【转】深入浅出理解决策树算法（一）-核心思想 - 代码天地

【转】深入浅出理解决策树算法（一）-核心思想

其他 2018-12-24 10:51:09 阅读次数: 0

算法思想

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。

其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

总结来说：

决策树模型核心是下面几部分：

结点和有向边组成
结点有内部结点和叶结点俩种类型
内部结点表示一个特征，叶节点表示一个类

决策树表示如下：

（摘自周志华老师西瓜书）

决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取，树本身对应这些合取的析取。理解这个式子，比如上图的决策树对应表达式为：

（（纹理=清晰） $\wedge$ (根蒂=蜷缩)） $\vee$ （（纹理=清晰） $\wedge$ (根蒂=稍蜷) $\wedge$ （色泽=乌黑） $\wedge$ （触感=硬滑）） $\vee$ ..........(纹理=模糊)

决策实例

假如我现在告诉你，我买了一个西瓜，它的特点是纹理是清晰，根蒂是硬挺的瓜，你来给我判断一下是好瓜还是坏瓜，恰好，你构建了一颗决策树，告诉他，没问题，我马上告诉你是好瓜，还是坏瓜？

判断步骤如下：

根据纹理特征，已知是清晰，那么走下面这条路，红色标记：

好的，现在咋们到了第二层了，这个时候，由决策树图，我们看到，我们需要知道根蒂的特征是什么了？很好，他也告诉我了，是硬挺，于是，我们继续走，如下面蓝色所示：

此时，我们到达叶子结点了，根据上面总结的点，可知，叶子结点代表一种类别，我们从如上决策树中，可以知道，这是一个坏瓜！

于是我们可以很牛的告诉他，你买的这个纹理清晰，根蒂硬挺的瓜是坏瓜，orz！

回归源头

根据上面例子，非常容易直观的得到了一个实例的类别判断，只要你告诉我各个特征的具体值，决策树的判定过程就相当于树中从根结点到某一个叶子结点的遍历。每一步如何遍历是由数据各个特征的具体特征属性决定。

好的，可能有人要问了，说了这么多，给你训练数据，你的决策树是怎么构建的呢？没有树，谈何遍历，谈何分类？

于是构建决策树也就成为了最重要的工作！

比如，给我下面训练数据，我如何构建出决策树

我们可以从上面决策树看出，每一次子结点的产生，是由于我在当前层数选择了不同的特征来作为我的分裂因素造成的。比如下图用红色三角形表示选择的特征：

每一层选择了指定的特征之后，我们就可以继续由该特征的不同属性值进行划分，依次一直到叶子结点。

看起来一切很顺利！但是细心的小伙伴可能会问了，为什么在第一次选择特征分裂的时候，不选择触感呢？而是选择纹理，比如如下：

不换成触感，或者其它特征为什么也不行呢？为什么选择的是纹理，这是以什么标准来选择特征的？这就是我们要说的决策树的关键步骤是分裂属性。

所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。

而判断“纯”的方法不同引出了我们的ID3算法，C4.5算法以及CART算法，这些后面会详细介绍！

好的，那么这篇文章在默认已经按照一种分裂方式，构建好了决策树！对一个预测数据的类别估计，就是按照我上面说的那样，进行决策树的遍历即可！非常容易理解。

希望对大家理解决策树有帮助~

参考：

周志华《机器学习》

德川《全体机器学习会slides》

算法杂货铺--分类算法之决策树(Decision tree)

发布于 2017-05-03

猜你喜欢

转载自blog.csdn.net/qq_36396104/article/details/84570901

【转】深入浅出理解决策树算法（一）-核心思想

深入浅出理解决策树算法

【转】深入浅出理解决策树算法（二）-ID3算法与C4.5算法

深入浅出决策树算法（一）

深入浅出决策树算法（三）

深入浅出决策树算法（二）

深入浅出学习决策树（一）

深入浅出学习决策树（二）

spring核心思想之IOC深入浅出介绍

Lesson 8.1 决策树的核心思想与建模流程

深入浅出理解Paxos算法

【深入浅出理解KMP算法】

深入浅出回归树算法

【机器学习】【决策树】决策树算法的核心思路详解

理解决策树及剪枝算法

Spring 深入浅出核心技术 (一)

决策树的升入浅出-视频

数据结构和算法深入浅出理解

深入浅出理解kNN（k近邻算法）

深入浅出理解回溯算法的底层原理

深入浅出理解TensorFlow的padding填充算法

深入浅出理解分布式一致性Paxos算法

深入浅出KNN算法（一）介绍篇

深入浅出Apriori关联分析算法（一）

深入浅出理解Redis

深入浅出理解virtual Dom

深入浅出理解装饰模式

深入浅出理解SerDes

理解决策树

（转）深入浅出REST

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)