统计学基础（二）：信息熵、基尼系数 - 代码天地

统计学基础（二）：信息熵、基尼系数

其他 2018-08-14 22:15:42 阅读次数: 0

一、信息熵

百科：信息熵

衡量信息的不确定度；

　1）理论提出

信息论之父 C. E. Shannon 指出：任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。

Shannon 把信息中排除了冗余后的平均信息量称为“信息熵”。

通常，一个信源发送出什么符号是不确定的（不同的符号可以看做不同的样本类型），衡量它可以根据其出现的概率来度量。概率大，出现机会多，不确定性小；反之就大。

　2）基本内容

根据事件发生的概率 P，可得出发生该事件的不确定性：；
不同事件的不确定性可以相加：f(P1, P2) = f(P1) + f(P2)；
一个数据集的不确定性：f(P1, P2, ... , Pk) = f(P1) + ... + f(Pk) = H

在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U1…Ui…Un，对应概率为：P1…Pi…Pn，且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值（E），可称为信息熵，即，式中对数一般取2为底，单位为比特。但是，也可以取其它对数底，采用其它相应的单位，它们间可用换底公式换算。

二、基尼系数

百科：基尼系数
多用于经济学中，分析国家贫富差距；
基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间，基尼系数越大，表示不平等程度越高；
有赫希曼提出，而不是基尼；

　1）通用算法

赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标。设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B。并以A除以（A+B）的商表示不平等程度；

如果A为零，基尼系数为零，表示收入分配完全平等；
如果B为零则系数为1，收入分配绝对不平等。
收入分配越是趋向平等，洛伦茨曲线的弧度越小，基尼系数也越小，反之，收入分配越是趋向不平等，洛伦茨曲线的弧度越大，那么基尼系数也越大。

猜你喜欢

转载自www.cnblogs.com/volcao/p/9478193.html

统计学基础（二）：信息熵、基尼系数

9-信息熵与基尼系数

机器学习基础学习-决策树（信息熵以及基尼系数进行划分）

机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）

【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

统计学基础二

决策树-信息熵-信息增益-基尼系数-剪枝操作-连续值处理-缺失值处理

统计学基础学习（二）

基尼系数

2.25基尼系数

【统计学】统计学基础

统计学基础

统计学（二）

机器学习笔记02--决策树算法(手把手教你看懂)---信息熵，信息增益，增益率，基尼系数

信息熵、条件熵、信息增益、信息增益率、基尼指数简述

统计学之偏度系数和峰度系数

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

统计学基础知识（二）---推断统计学（Inferential Statistics）

Decision Tree（决策树）-Entropy（熵）-Gini（基尼系数）

信息熵(ID3)、信息增益（C4.5）、基尼值和基尼指数

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

统计学基础一

统计学基础（四）

统计学基础（一）

推论统计学基础

Python统计学基础

统计学基础01

统计学笔记(二)

Python统计学（二）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)