9-信息熵与基尼系数 - 代码天地

9-信息熵与基尼系数

其他 2018-08-10 07:14:55 阅读次数: 0

一、基尼系数是什么？

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。

2)基尼系数有什么意义？
我们可以先来看一组数据

X的取值	方案一	方案二	方案三	方案四	P的平方	方案一	方案二	方案三	方案四
类别一	0.9	0.5	0.4	0.2	p1^2	0.81	0.25	0.16	0.04
类别二	0.1	0.5	0.3	0.2	p2^2	0.01	0.25	0.09	0.04
类别三	0	0	0.3	0.2	p3^2	0	0	0.09	0.04
类别四	0	0	0	0.2	p4^2	0	0	0	0.04
类别五	0	0	0	0.2	p5^2	0	0	0	0.04
基尼系数	0.18	0.5	0.66	0.8	总和	0.82	0.5	0.34	0.2
总和	1	1	1	1	基尼系数	0.18	0.5	0.66	0.8

由上图我们可以观察到，类别的个数是方案一(2个) < 方案三(3个) < 方案四(4个) ，基尼系数为方案一 < 方案三 < 方案四；而方案一和方案二类别个数相同，但方案一的类别集中度比方案二要高，而基尼系数为方案一 < 方案二

基尼系数的特质是：

1) 类别个数越少，基尼系数越低;

2)类别个数相同时，类别集中度越高，基尼系数越低。

当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。

【类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高】

二、熵
1）熵是什么？
下面是摘自李航《统计学习方法》中熵的定义。

2）怎样理解熵的意义？
我们可以先来看一组数据

X的取值	方案一	方案二	方案三	方案四	P的平方	方案一	方案二	方案三	方案四
类别一	0.9	0.5	0.4	0.2	p1*(-lnp1)	0.09	0.35	0.37	0.32
类别二	0.1	0.5	0.3	0.2	p2*(-lnp2)	0.23	0.35	0.36	0.32
类别三	0	0	0.3	0.2	p3*(-lnp3)	0.00	0.00	0.36	0.32
类别四	0	0	0	0.2	p4*(-lnp4)	0.00	0.00	0.00	0.32
类别五	0	0	0	0.2	p5*(-lnp5)	0.00	0.00	0.00	0.32
熵	0.82	0.50	0.34	0.20	熵	0.82	0.50	0.34	0.20

可以看到，这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质，它们都可以用来衡量信息的不确定性。

猜你喜欢

转载自blog.csdn.net/yeziand01/article/details/80731078

9-信息熵与基尼系数

统计学基础（二）：信息熵、基尼系数

机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）

【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

机器学习基础学习-决策树（信息熵以及基尼系数进行划分）

决策树-信息熵-信息增益-基尼系数-剪枝操作-连续值处理-缺失值处理

基尼系数

2.25基尼系数

机器学习笔记02--决策树算法(手把手教你看懂)---信息熵，信息增益，增益率，基尼系数

信息熵、条件熵、信息增益、信息增益率、基尼指数简述

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

Decision Tree（决策树）-Entropy（熵）-Gini（基尼系数）

信息熵(ID3)、信息增益（C4.5）、基尼值和基尼指数

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

信息熵与基尼指数的关系（一阶泰勒展开）

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

使用Python计算基尼系数

Python绘制基尼系数图

基尼系数（Gini coefficient），或称洛伦茨系数

决策树中的熵和基尼指数

机器学习：决策树（基尼系数）

基尼系数近似计算：sql （hive）实现

基尼系数计算的两种方法：python实现

dagum基尼系数分析全流程

R语言中自编基尼系数的CART回归决策树的实现

matlab画基尼系数和画洛伦兹曲线

简单粗暴理解与实现机器学习之决策树算法（二）：决策树分类原理、熵、决策树的划分依据之信息增益and信息增益率and基尼值和基尼指数、常见决策树类型比较、cart剪枝（附手写笔记）

基尼值和基尼指数

[学习笔记] [机器学习] 6. [下]决策树算法（熵Entropy、信息增益（率）、基尼值（指数）、CART剪枝、特征工程特征提取、回归决策树）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)