意义

又名信息熵。用来描述不确定事件的不确定程度，是随机变量不确定度的度量。随机变量不确定度越大，熵越大；反之越小。

直观示例

对于今天是否下雨这个不确定事件，如果天气预报说“今天中午下雨的可能性是百分之九十”，我们就会不约而同想到出门带伞；如果预报说“有百分之五十的可能性下雨”，我们就会犹豫是否带伞，因为雨伞无用时确是累赘之物。
显然，第一则天气预报中，下雨这件事的不确定性程度较小，而第二则关于下雨的不确定度就大多了。

对于一般的不确定事件，我们怎样数学地刻画它的不确定程度呢？

设想有n个“基本事件”，各自出现的概率分别为p1, p2, …, pn，则它们构成一个样本空间，可以简记为所谓的“概率数组” (p1, p2, …, pn)。样本空间最简单的例子是我们上面提到的抛硬币游戏，它只有两个基本事件：抛硬币结果是“正面朝上”或“反面朝上”，其中每个事件的概率均为 1/2，其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称，使得抛硬币时正面朝上的概率增加到7/10，而反面朝上的概率减少到3/10，则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度，用数 H(7/10, 3/10) 代表第二个样本空间的不确定度，那么直觉马上告诉我们：数 H(1/2, 1/2) 大于数 H(7/10, 3/10)，也就是前者比后者更加不确定。

更一般地，若用 H(p1, p2, …, pn) 记样本空间 (p1, p2, …, pn) 所对应的不确定度，运用同样的直觉分析，我们相信当所有的基本事件机会均等，即都有同样的概率1/n时，其不确定度最大。因而，不确定度函数H应该满足如下的基本不等式：

对所有的加起来等于1的非负“概率数” p1, p2, …, pn， 
（1） H(p1, p2, …, pn) ≤ H(1/n, 1/n, …, 1/n)。

如果我们不抛硬币，而像澳门赌场的常客那样掷骰子，每掷一次，小立方骰子的每一个面朝上的概率均为1/6。想一想就知道，某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化，我们就有不确定度函数H 应该满足的单调性要求：

（2） H(1/n, 1/n, …, 1/n) 是自然数 n 的严格递增函数。

假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金，他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平，让每个系得此奖励的机会均等。若物理系拿到资助，就到了赵教授的名下。如数学系得到了它，钱教授有2/3的概率拿到，孙教授则有1/3的机会到手。通过分析“条件概率”，我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值：这三个教授获得基金的不确定度，等于物理系或数学系拿到这笔基金的不确定度，加上数学系赢得该基金的概率与在数学系拿到基金的条件之下，钱教授或孙教授得到它的不确定度之乘积。换言之，H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ½ H(2/3, 1/3)。推而广之，可以得出不确定度与条件概率有关的“加权和”性质：

（3） 如果一个不确定事件分解成几个持续事件，则原先事件的不确定度等于持续事件不确定度的加权和。

既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数，我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样，第四个条件就自然而然地加在了不确定度函数的头上：

（4） 对固定的自然数n，不确定度函数 H 是 (p1, p2, …, pn) 的一个连续函数。

香农无需什么高深的数学，甚至连微积分都可不要，就证明了：任何在所有样本空间上都有定义的函数H，只要它满足以上的“三项基本原则 (2)(3)(4)”，就非如下的表达式莫属：

H(p1, p2, …, pn)  = -C(p1 ln p1 + p2 ln p2 + … + pn ln pn)，

其中符号 ln 代表以 e 为底的自然对数函数，C 可以是任意一个常数。

并可证明，条件(1)自动满足（有兴趣的读者可用初等微积分证之）。当然，熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数，它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。
香农取 C = 1，如此得到了非负函数：

H(p1, p2, …, pn)  = -(p1 ln p1 + p2 ln p2 + … + pn ln pn)，

（H）按照冯 • 诺依曼的建议，该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在，这个数被广称为“香农熵”，以纪念它的创造者、信息论之父——香农。

计算公式

一个随机变量X不确定度的计算公式：

H(X)  = -(p1 ln p1 + p2 ln p2 + … + pn ln pn)，

其中p1 、p2、 pn是随机变量X各个基本事件出现的概率。

总的来说，熵就是用来描述随机变量不确定性程度的，随机变量的不确定度越大，熵越大，反之越小。如何计算这个不确定度，记住上面的计算公式即可。

香农熵概念理解

意义

直观示例

对于一般的不确定事件，我们怎样数学地刻画它的不确定程度呢？

计算公式

猜你喜欢