决策树和信息熵 - 代码天地

决策树和信息熵

其他 2018-05-31 12:07:01 阅读次数: 0

有没有玩过或听过这样一个游戏：参与游戏的一方在脑海里想好某个事物，然后其他参与者向他提问，回答者只能回答是还是不是。问问题的人通过答案推理，不断缩小待猜事物的范围。

其实上面的过程就类似于决策树的工作原理。

就像上面那个游戏，关键点在于如何问问题，那决策树的关键，就在于如何划分数据集。

划分数据集的大原则就是：将无序的数据变得更加有序。那用什么衡量有序和无需呢？就是信息熵。

要说信息熵，先说说信息量。信息量的公式如下：

其中p(x)是事件发生的概率。从公式可以看出，概率越大，信息量越小。显然是这样，我如果说太阳从东边升起，没什么信息量。如果我说太阳从西边升起，那信息量就太大了。

下面我们正式引出信息熵。

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。那自然是所有信息的求和：

333

所以说，熵越大，不确定性越大，越无序；熵越小，确定性越大，越有序。

所以我们构建决策树划分数据集的时候，应该选择划分前后信息熵变化最大的那种方式。划分前后信息熵变化称为信息增益（information gain），但实际上在数据集划分后，信息熵是减少的，信息熵减少也叫信息增益，这也是经常会困扰初学者的一个地方。

猜你喜欢

转载自blog.csdn.net/angciyu/article/details/79650452

决策树和信息熵

决策树信息熵和信息增益的概念

（决策树中的）信息熵和样本分类的信息熵计算源代码

决策树（信息熵、信息增溢、GINI）的计算

信息熵与信息增益在决策树生成中的使用

【机器学习】P23 决策树、熵和信息增益

决策树--熵(Entropy)，互信息(Mutual Info)

信息熵与决策树的特征选择（理论+实例）

【决策树】一文看懂图解决策树原理：信息熵、条件熵与信息增益

python机器学习（六）决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

决策树中的熵和基尼指数

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

决策树的相关知识点——信息熵，条件熵，量化度量指标

西瓜书课后习题4.3 基于信息熵决策树，连续和离散属性，并验证模型

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

决策树--熵计算--特征分类

《机器学习》第4章决策树之详解信息熵，信息增益

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

简单粗暴理解与实现机器学习之决策树算法（二）：决策树分类原理、熵、决策树的划分依据之信息增益and信息增益率and基尼值和基尼指数、常见决策树类型比较、cart剪枝（附手写笔记）

决策树算法——熵与信息增益（Python3实现）

决策树----熵、信息增益（ID3）、C4.、多方式源码实现

Python scikit-learn，分类，决策树与随机森林，DecisionTreeClassifier，RandomForestClassifier，信息熵

Python编程实现基于信息熵进行划分选择的决策树算法

机器学习（决策树一）——最直白的话来说信息熵

机器学习基础学习-决策树（信息熵以及基尼系数进行划分）

决策树信息增益

12_信息熵，信息熵公式，信息增益，决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例

决策树中信息增益计算和代码理解

关于决策树后剪枝和最大熵模型的一些直观理解

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)