1.信息熵

简介：
描述一组样本的不确定程度。

公式：
$H(x)=-\sum_{i=1}^{n} P(x_{i})log P(x_{i})$

例如一组样本：

样本1	国庆假期选择出游的概率	样本2	国庆假期选择出游的概率
张三	0.2	Jack Zhang	0.6
李四	0.2	Eric Li	0.1
王五	0.2	Vicky Wang	0.1
赵六	0.2	Nicholas Zhao	0.1
钱七	0.2	Tsien	0.1

求信息熵：

结论：

样本1中的学生选择国庆假期出游的不确定性比较大。

2.交叉熵

简介：
度量预测样本与真实样本之间的差距。NN中最常见的名词之一，但除了会用，还可以再多了解一下。

公式：
$H(P,Q)=-\sum_{i=1}^{n} P(x_{i})log Q(x_{i})$

（注：交叉熵有多种变形公式）

例如一组样本：

求交叉熵：

H(P,Q) = -(1Log(0.7) + 0log(0.1) + 0*log(0.2)) = 0.1549

结论：

预测结果越准确，交叉熵越小。

简介：
描述2个概率分布间的差异或者距离。也是学习GAN时需要了解的重要概念。

公式：
$D_{K,L}(P||Q)=-\sum_{i=1}^{n} P(x_{i})log (\frac{P(x_{i})}{Q(x_{i})})$

特性：

1.非对称性：
$D_{K,L}(P||Q) ≠ D_{K,L}(Q||P)$

2.非负性：
$D_{K,L}(P||Q) > = 0$

3.通过公式变形可知：
KL散度 = 交叉熵-信息熵

我们知道Log(1)=0，分类问题结果往往是one hot形式的，那么上面公式就变成了：
KL散度 = 交叉熵 - 0

所以有时候直接求交叉熵就行了。

简介：
又名BCE、BinaryCrossEntropy。
二分类即是或者不是两种结果，同时也会得到返回是或者不是的概率，概率值带入该公式求得损失，同时也是GAN运用中用来求得损失函数的公式。

公式：
$H(P,Q)=-\sum_{i=1}^{n} P(x_{i})log Q(x_{i})$

$= - (P (x 1) l o g Q (x 1) + P (x 2) l o g Q (x 2))$
$= - (Pl o g Q + (1 - P) l o g (1 - Q))$

（注：为什么xi可以替换成x1和x2，是因为二分类只有2个分类）

导数（这是chatgpt给的）：
(Q - P) / (Q * (1 - Q))

简介：
将数字结果转换为概率，所以对于非分类问题的神经网络，要去掉Softmax操作。

公式：
$S_{i} = \frac{e^{zi}}{\sum_{i=1}^{n} e^{zi}}$

这个比较常见，推导就不做了。