信息论概念 - 代码天地

信息论概念

其他 2018-05-30 04:57:16 阅读次数: 0

－－来自百度百科

信息熵，是随机变量或整个系统的不确定性。熵越大，随机变量或系统的不确定性就越大。

相对熵，用来衡量两个取值为正的函数或概率分布之间的差异。

交叉熵，用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

相对熵=交叉熵-信息熵：

信息熵

通常，一个信源发送出什么符号是不确定的，衡量它可以根据其出现的概率来度量。概率大，出现机会多，不确定性小；反之就大。

不确定性函数f是概率P的单调递降函数；两个独立符号所产生的不确定性应等于各自不确定性之和，即f（P 1，P 2）=f（P 1）+f（P 2），这称为可加性。同时满足这两个条件的函数f是对数函数，即

。

在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U 1…U i…U n，对应概率为：P 1…Pi…P n，且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logP i的统计平均值（E），可称为信息熵，即

，式中对数一般取2为底，单位为比特。但是，也可以取其它对数底，采用其它相应的单位，它们间可用换底公式换算。

最简单的单符号信源仅取0和1两个元素，即二元信源，其概率为P和Q=1-P，该信源的熵即为如图1所示。

由图可见，离散信源的信息熵具有：①非负性，即收到一个信源符号所获得的信息量应为正值，H（U）≥0；②对称性，即对称于P=0．5（③确定性，H（1，0）=0，即P=0或P=1已是确定状态，所得信息量为零；④极值性，当P=0．5时，H（U）最大；而且H（U）是P的上凸函数。

对连续信源，仙农给出了形式上类似于离散信源的连续熵，

图1 二元信源的熵

图1 二元信源的熵

虽然连续熵H C （U）仍具有可加性，但不具有信息的非负性，已不同于离散信源。H C （U）不代表连续信源的信息量。连续信源取值无限，信息量是无限大，而H C （U）是一个有限的相对值，又称相对熵。但是，在取两熵的差值为互信息时，它仍具有非负性。这与力学中势能的定义相仿。

交叉熵

编辑

将交叉熵引入计算语言学消岐领域，采用语句的真实语义作为交叉熵的训练集的先验信息，将机器翻译的语义作为测试集后验信息。计算两者的交叉熵，并以交叉熵指导对歧义的辨识和消除。实例表明，该方法简洁有效．易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具。

在信息论中，交叉熵是表示两个概率分布p,q，其中p表示真实分布，q表示非真实分布，在相同的一组事件中，其中，用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中，我们很难理解交叉熵的定义。下面举个例子来描述一下：

假设现在有一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

H(p)=

但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：

H(p,q)=

此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下：

对于离散变量采用以下的方式计算：H(p,q)=

对于连续变量采用以下的方式计算：

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。 [1]

在特征工程中，可以用来衡量两个随机变量之间的相似度。

在语言模型中（NLP）中，由于真实的分布p是未知的，在语言模型中，模型是通过训练集得到的，交叉熵就是衡量这个模型在测试集上的正确率。

相对熵

编辑

相对熵（relative entropy）又称为KL散度（ Kullback–Leibler divergence，简称 KLD），信息散度（information divergence）。

设

和

是

取值的两个离散概率分布，则

对

的相对熵为：

对于连续的随机变量，定义为：

相对熵是两个概率分布

和

差别的非对称性的度量。 [1]

物理意义

编辑

相对熵是用来度量使用基于

的编码来编码来自

的样本平均所需的额外的比特个数。典型情况下，

表示数据的真实分布，

表示数据的理论分布，模型分布，或

的近似分布。

根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是

，对

，其出现概率为

，那么其最优编码平均需要的比特数等于这个字符集的熵：

在同样的字符集上，假设存在另一个概率分布

，如果用概率分布

的最优编码（即字符

的编码长度等于

），来为符合分布

的字符编码，那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离，即：

由于对数函数是上凸函数，所以：

所以相对熵始终是大于等于0的，当且仅当两分布相同时，相对熵等于0。

性质

编辑

相对熵（KL散度）有两个主要的性质，如下：

（1）不对称性

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

（2）非负性

相对熵的值为非负值，即

，证明可用吉布斯不等式。 [1]

区别与联系

编辑

信息熵，是随机变量或整个系统的不确定性。熵越大，随机变量或系统的不确定性就越大。

相对熵，用来衡量两个取值为正的函数或概率分布之间的差异。

交叉熵，用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

相对熵=交叉熵-信息熵：

示例

编辑

假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知道A的具体分布。通过观察，得到概率分布B与C，各个分布的具体情况如下：

可以计算出得到如下：

也可以看出，按照概率分布

进行编码，要比按照

进行编码，平均每个符号增加的比特数目少。从分布上也可以看出，实际上

要比

更接近实际分布（因为其与

分布的相对熵更小）

应用

编辑

相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵（KL散度）可以用于比较文本的相似度，先统计出词的频率，然后计算相对熵。另外，在多指标系统评估中，指标权重分配 [2] 是一个重点和难点，也通过相对熵可以处理。

猜你喜欢

转载自blog.csdn.net/lgb_love/article/details/80393775

信息论概念

信息论基础概念

信息论相关概念

信息论中的基本概念

信息论

信息论，熵

简单信息论

香农信息论

信息论与编码

信息论的熵

信息论-熵

信息论小结

信息论概述

信息论基础

信息论——the Convexity

信息论_熵

信息论小记

信息论整理

研究生课程之信息论基础——信息论的基础概念

信息论-信息的度量

信息论中平稳概念--离散平稳信源

关于熵的知识——信息论基本概念

信息论讲义（1）

概率与信息论-笔记

【笔记】信息论基础

信息论笔记--照片

概率与信息论基础

信息论课程作业

机器学习 -- 信息论

1.2 概率与信息论

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)