【决策树算法】{0} —— 决策树模型简介 - 代码天地

【决策树算法】{0} —— 决策树模型简介

其他 2020-04-27 06:19:48 阅读次数: 0

什么是决策树？

决策树是一种逻辑简单的机器学习算法，可用作分类，也可用作回归，属于监督学习（Supervised learning）。

决策树的模型表达式f(x)很难被写出，却很容易被画出

决策树是一种树形结构：

树形结构：

①结点+有向边
②没有回路，根结点为始、叶子结点为终

或者这么画：

根节点：包含样本的全集
内部节点：对应特征属性测试
叶节点：代表决策的结果

决策树学习的步骤：

特征选择
根据信息增益的准则，筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。
决策树生成及分裂
从根节点开始，对每个节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；然后对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。
决策树剪枝
主动去掉部分分支，防止过拟合。

决策树的分裂（决策）：

根据 分裂的特征x 和 分裂的阈值a 进行分裂，即进行一次决策。然后由判断结果决定进入哪个分支节点，直至到达叶节点处，得到分类结果。

在构建决策树模型时，我们无法得知参数数量，而是采用启发式算法。

启发式算法：

将所有的训练数据都放在根结点中。
选择一个当前的最优决策，将根结点的数据分割成子集。
对每个子集，选择一个子集的最优决策，得到子集的子集。
递归执行，直到各个子集都有较好的分类时结束。

最优决策：

分类树决策的优劣用熵来衡量。

`决策树的损失函数就是条件熵`

决策树算法：

ID3
C4.5
CART

ID3算法的思路：信息增益最大化
信息增益 = 熵 - 条件熵

C4.5算法的思路：信息增益率最大化
信息增益率 = 信息增益 / 熵

ID3算法和C4.5的区别仅在于信息增益和信息增益率。

决策树算法的优缺点：

优点：计算复杂度不高,输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。

参考资料：
https://kaiwu.lagou.com/course/courseInfo.htm?courseId=15#/detail/pc?id=224
https://easyai.tech/ai-definition/decision-tree/
《机器学习实战》

Giyn

发布了82 篇原创文章 · 获赞 327 · 访问量 6322

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_45961774/article/details/105725189

【决策树算法】{0} —— 决策树模型简介

决策树模型

决策树算法

决策树算法原理简介

决策树简介与入门

决策树模型小结

决策树与集成模型

经典决策树模型

决策树模型介绍

决策树思维模型

【分类模型】决策树

决策树模型（二）

分类——决策树模型

统计模型----决策树

决策树学习算法

决策树算法（上）

决策树算法（下）

决策树算法总结

4、决策树算法

决策树算法实现

决策树分类算法

决策树回归算法

决策树算法实例

决策树算法笔记

决策树算法及实现

决策树算法：CART

决策树算法框架

【算法梳理】决策树

决策树算法整理

决策树算法的研究

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)