信息熵、条件熵、信息增益、信息增益率、基尼指数简述 - 代码天地

信息熵、条件熵、信息增益、信息增益率、基尼指数简述

其他 2019-06-13 21:37:10 阅读次数: 0

在机器学习、信息论与统计学中信息熵、条件熵、信息增益、信息增益率（比）、基尼系数这五个概念相当基础也非常重要。

today，博主也捋一捋这基本的概念，由于个人水平所限，还请各位看官多多指教！

信息熵

概念：用来表示随机变量不确定性程度的量，设X是一个取值范围有限的离散随机变量，其概率分布可以表示为：

$\begin{center}$$P(X=x_i)=p_i, i=1,2,...,n$$ \end{center}$

则随机变量X的信息熵为：

$H(X)=-\sum_{i=1}^{n}p_i\log p_i$

即信息熵就是用来度量随机变量的不确定程度，如果随机变量是唯一确定值（X是常量，只有一个取值情况：x=125）则H(X)=0。信息熵随着变量的不确定程度的增加而增加。

举一个不恰当的例子：信息熵随着变量的取值个数的增加而变大。

条件熵

概念：H(Y|X)表示在随机变量X的条件下随机变量Y的不确定性。公示为：

$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$

可以认为是某一事件Y有多个变量影响，其中一个变量X被确定下来了，然后计算Y的信息熵。其实就是在所有情况中筛选出X=xi的事件子集合，在此集合内求信息熵。

信息增益(也称为互信息)

概念：特征A对数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)与特征A给定条件下D的条件熵H(D|A)之差，即

$g(D,A)=H(X)-H(X|A)$

本质上就是求解，特征A对于确定X取值所做出的的贡献大小（程度）。

信息增益比

概念：特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益g(D,A)与数据集D的信息熵H(D)之比：

$g_R(D,A)=\frac{g(D,A)}{H(X)}$

基尼指数

概念：分类问题中，假设有K个类，样本点属于第看、类的概率为pk，则概率分布的基尼指数定义为：

$Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$

猜你喜欢

转载自blog.csdn.net/qq_19672707/article/details/84401348

信息熵、条件熵、信息增益、信息增益率、基尼指数简述

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）

信息熵、信息增益与信息增益率

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

熵条件熵信息增益

熵、信息增益、信息增益率

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

信息增益=信息熵-条件熵

信息熵，条件熵，信息增益与信息增益比

熵、信息增益、信息增益比

信息熵(ID3)、信息增益（C4.5）、基尼值和基尼指数

信息熵、信息增益和信息增益比

熵——信息增益

信息增益与熵

熵与信息增益

信息熵、信息增益、条件熵、互信息

对信息熵，信息增益的研究

AI机器学习-信息熵，条件熵，信息增益

AI机器学习-信息熵、条件熵、信息增益

机器学习笔记02--决策树算法(手把手教你看懂)---信息熵，信息增益，增益率，基尼系数

信息量，熵，条件熵，相对熵，交叉熵，信息增益，互信息，信息增益比

【概率论】——熵、条件熵、信息增益

机器学习--信息信息熵信息增益

树（ID3，C4.5，CART，信息增益，信息增益比，基尼指数）

随机森林信息&熵&信息增益

机器学习信息熵与信息增益

决策树-信息熵-信息增益-基尼系数-剪枝操作-连续值处理-缺失值处理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)