【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

其他 2018-12-13 13:51:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/ARPOSPF/article/details/84876426

信息、信息熵、信息增益、增益率及基尼系数的概念总结

信息

信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言，如果待分类的事物集合可以划分为多个类别当中，则第k类的信息可以定义如下：

$I(k)=-log_2({p_k})$

信息熵

信息熵是用来度量不确定性，当熵越大，k的不确定性越大，反之越小

假定当前样本集合D中第k类样本所占的比例为 $p_k (k=1,2,...,|y|)$ ，则D的信息熵定义为：

$Ent(D)=-\sum_{k=1}^{|y|}{p_klog_2 {p_k}}$

信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。

同上，计算特征a对样本集D进行划分所获得的信息增益为：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Ent(D^v)$

事实上，信息增益准则对可取值数目较多的特征有所偏好，为了减少这种偏好可能带来的不利影响，C4.5决策树算法使用了“增益率”：

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中IV(a)称为属性a的“固有值”：

$IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}log_2{\frac{|D^v|}{|D|}}$

需要注意的是，增益率准则对可取值数目较少的属性所有偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

基尼系数

CART据册数使用了“基尼系数”来选择划分属性，它反映了从数据集D中随机抽取两个样本，与其类别标记不一致的概率。因此在候选属性集合A中，选择基尼系数最小的属性作为最优划分属性：

$Gini\_index(D,a)=\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Gini(D^v)$

参考内容：周志华《机器学习》

猜你喜欢

转载自blog.csdn.net/ARPOSPF/article/details/84876426

【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

机器学习笔记02--决策树算法(手把手教你看懂)---信息熵，信息增益，增益率，基尼系数

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

信息熵、条件熵、信息增益、信息增益率、基尼指数简述

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

信息熵、信息增益与信息增益率

机器学习--信息信息熵信息增益

熵、信息增益、信息增益率

机器学习信息熵与信息增益

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

熵、信息增益、信息增益比

决策树-信息熵-信息增益-基尼系数-剪枝操作-连续值处理-缺失值处理

信息增益，信息增益率

AI机器学习-信息熵，条件熵，信息增益

AI机器学习-信息熵、条件熵、信息增益

信息熵、信息增益和信息增益比

【机器学习（三）】机器学习中：信息熵，信息增益，信息增益比，原理，案例，代码实现。

熵——信息增益

信息增益与熵

熵与信息增益

简单粗暴理解与实现机器学习之决策树算法（二）：决策树分类原理、熵、决策树的划分依据之信息增益and信息增益率and基尼值和基尼指数、常见决策树类型比较、cart剪枝（附手写笔记）

信息熵(ID3)、信息增益（C4.5）、基尼值和基尼指数

对信息熵，信息增益的研究

[学习笔记] [机器学习] 6. [上]决策树算法（熵Entropy、信息增益（率）、基尼值（指数）、CART剪枝、特征工程特征提取、Jieba分词、回归决策树）

[学习笔记] [机器学习] 6. [下]决策树算法（熵Entropy、信息增益（率）、基尼值（指数）、CART剪枝、特征工程特征提取、回归决策树）

熵条件熵信息增益

信息熵，条件熵，信息增益与信息增益比

9-信息熵与基尼系数

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)