1、信息量 Amount of Information

信息量：衡量事件发生的难度有多大
- 小概率事件，它发生的难度比较大，所以有较大的信息量
- 大概率事件，它发生的难度比较小，所以有较小的信息量

信息量公式： $log_2(\frac{1}{p_{(x)}}) = - log_2(p_{(x)})$

性质：对于独立事件 A、B ： $p_{(AB)} = p_{(A)}p_{(B)}$ ，两个事件同时发生的信息量等于两个事件的信息量相加： $I (A B) = I (A) + I (B)$

$\quad \quad \rightarrow I{(AB)} = log_2(\frac{1}{p_{(AB)}}) = log_2(\frac{1}{p_{(A)}p_{(B)}}) = log_2(\frac{1}{p_{(A)}}) + log_2(\frac{1}{p_{(B)}}) = I(A) + I(B)$

$\le p_{(x)} \le 1$

例1 ：抛硬币，正面概率 $p_{(A)} =0.5$ ，反面概率 $p_{(B)}=0.5$

$\quad \quad \rightarrow I{(A)} = - log_2(0.5) =1$ , $\quad \quad I{(B)} = - log_2(0.5) = 1$

例2 ：抛硬币，正面概率 $p_{(A)}=0.2$ ，反面概率 $p_{(B)}=0.8$

$\quad \quad \rightarrow I{(A)} = - log_2(0.2) =2.32$ , $\quad \quad I{(B)} = - log_2(0.8) = 0.32$

结论：小概率事件有较大的信息量，大概率事件有较小的信息量

2、熵 Entropy

定义：概率分布的信息量期望： $H (p) := E (I (x))$ ，（亦可理解为：系统整体的信息量。其中，系统整体由所有可能发生的事件构成。比如抛硬币，正面和反面就构成一个系统整体）

作用：用来评估概率模型的不确定性程度

不确定性越大，熵越大
不确定性越小，熵越小

公式： $\sum{p_iI_i^p} = -\sum{p_ilog_2(p_i)}$

例1 ：抛硬币，正面概率 $p_{(A)}=0.5$ ，反面概率 $p_{(B)}=0.5$

$\quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{(A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.5 \cdot log_2(1/0.5) + 0.5 \cdot log_2(1/0.5) \\ &= 0.5 \cdot 1 + 0.5 \cdot 1 \\ &= 1 \end{aligned}$

例2 ：抛硬币，正面概率 $p_{(A)}=0.2$ ，反面概率 $p_{(B)}=0.8$

$\quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{(A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.2 \cdot log_2(1/0.2) + 0.8 \cdot log_2(1/0.8) \\ &= 0.2 \cdot 2.32 + 0.8 \cdot 0.32 \\ &= 0.72 \end{aligned}$

结论：
若概率密度均匀，产生的随机变量的不确定性就更高，则熵的值就更大
若概率密度聚拢，产生的随机变量的确定性较高，则熵的值较小

3、交叉熵 Cross Entropy

假设真实概率分布为 $p$ 、预测概率分布 (估计概率分布) 为 $q$
定义：预测概率分布 $q$ 对真实的概率分布 $p$ 的平均信息量的估计，叫做交叉熵

公式： $\sum{p_iI_i^q} = -\sum{p_i log_2(q_i)}$

例1 ：抛硬币，正面真实概率 $p (A) = 0.5$ ，反面真实概率 $p (B) = 0.5$ ；正面估计概率 $q (A) = 0.2$ ，反面估计概率 $q (B) = 0.8$

$\quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2(q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.2) + 0.5 \cdot log_2(1/0.8) \\ &= 0.5 \cdot 2.32 + 0.5 \cdot 0.32 \\ &= 1.32 \end{aligned}$

例2 ：抛硬币，正面真实概率 $p (A) = 0.5$ ，反面真实概率 $p (B) = 0.5$ ；正面估计概率 $q (A) = 0.4$ ，反面估计概率 $q (B) = 0.6$

$\quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2(q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.4) + 0.5 \cdot log_2(1/0.6) \\ &= 0.5 \cdot 1.32 + 0.5 \cdot 0.74 \\ &= 1.03 \end{aligned}$

结论：
（1）预估概率分布与真实概率分布越接近，交叉熵越小。
（2）交叉熵的值总是大于熵的值（根据吉布斯不等式）

4、相对熵（KL散度、 KL Divergence ）

KL散度以 Kullback 和 Leibler 的名字命名，也被称为相对熵

作用：用于衡量 2个概率分布之间的差异

公式：

$\begin{aligned} D(p||q) &= H(p, q) - H(p) \\ & = \sum{p_i log_2(1 / q_i)} - \sum{p_i log_2(1 / p_i)} \\ & = \sum{p_i [log_2(1 / q_i) - log_2(1 / p_i) ]} \\ & = \sum{p_i [I_q - I_p ]} \quad \quad \quad \# \; I_q - I_p为信息量之差\\ & = \sum{p_i log_2(p_i / q_i)} \\ \end{aligned}$

重要性质：
（1）由吉布斯不等式可知： $\ge 0$ ；当分布q 和分布p 完全一样时， $D (p ∣∣ q) = 0$

在这里插入图片描述

（2） $D (p ∣∣ q)$ 与 $D (q ∣∣ p)$ 不一样，即 $\neq D(q||p)$

$D (p ∣∣ q)$ 表示以 p为基准 (为真实概率分布)，估计概率分布 $q$ 与真实概率分布 $p$ 之间的差距
$D (q ∣∣ p)$ 表示以 q为基准 (为真实概率分布)，估计概率分布 $p$ 与真实概率分布 $q$ 之间的差距

5、交叉熵损失函数 Cross Entropy Loss

由上可知， KL散度 $D (p ∣∣ q)$ 表示预测分布q 与真实分布p 之间的差距，所以我们可直接将损失函数定义为 KL散度： $L oss = D (p ∣∣ q)$
并且我们希望模型的预测分布q 与真实分布p 完全相同，即：损失函数 $L oss = D (p ∣∣ q) = 0$

$\sum{p_i log_2(1/q_i)} -\sum{p_i log_2(1/p_i)} \tag{1}$

对于分类问题，真实分布是一个单点分布，真实类别的概率为1，其他类别的概率都为0，类似如下：

类别	class1	class 2	class 3	class 4
概率	0	0	1	0

$p_{class1} = p_{class2} = p_{class4} = 0, \quad \quad log_2(1/p_{class3}) = 0$

所以， $\sum{p_i log_2(1 / p_i)} = 0$

损失函数（1）可进一步化简为： $\tag{2}$

$H (p, q)$ 是交叉熵，所以损失函数又称为交叉熵损失函数 :
$Cross\_Entropy\_Loss = H(p, q) = -\sum{p_i log_2(q_i)} \tag{3}$

又因为真实分布为单点分布，真实类别的概率 $p_{class}=1$ ，其他类别的概率 $p_{\bar {class}}=0$

$Cross\_Entropy\_Loss = H(p, q) = - log_2(q_{class})$

信息量 Amount of Information、熵 Entropy、交叉熵 Cross Entropy、KL散度 KL Divergence、交叉熵损失函数 Cross Entropy Loss

1、信息量 Amount of Information

2、熵 Entropy

3、交叉熵 Cross Entropy

4、相对熵（KL散度、 KL Divergence ）

5、交叉熵损失函数 Cross Entropy Loss

猜你喜欢

信息量 Amount of Information、熵 Entropy、交叉熵 Cross Entropy、KL散度 KL Divergence、交叉熵损失函数 Cross Entropy Loss

1、信息量 Amount of Information

2、熵 Entropy

3、交叉熵 Cross Entropy

4、相对熵 （KL散度、 KL Divergence ）

5、交叉熵损失函数 Cross Entropy Loss

猜你喜欢

4、相对熵（KL散度、 KL Divergence ）