交叉熵似然函数

交叉熵似然函数

转载自:https://zhuanlan.zhihu.com/p/70804197

信息熵

  • 信息熵是消除不确定性所需信息量的度量
    • 信息熵是信息的不确定程度
    • 信息熵越小,信息越确定
  • \(信息熵=\sum\limits_{x=1}^n(信息x发生的概率\times{验证信息x所需信息量})\)
    • 今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去查证了,这样就需要很多信息量(去查证);反之如果说今年正常高考,大家回想:这很正常啊,不怎么需要查证,这样需要的信息量就很小。
  • 根据信息的真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性,即最小信息熵
  • 概率越低,需要越多的信息去验证,所以验证真假需要的信息量和概率成反比。我们需要用数学表达式把它描述出来,推导:

考虑一个离散的随机变量 [公式] ,已知信息的量度依赖于概率分布 [公式] ,因此我们想要寻找一个函数 [公式] ,它是概率 [公式] 的单调减函数(因为\(p(x)\)越大,所需要的信息量就越小),表示信息量

怎么寻找呢?如果我们有两个不相关的事件 [公式][公式] ,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即:
[公式]

因为两个事件是独立不相关的,因此
[公式]

根据这两个关系,很容易看出 [公式] 一定与 [公式]对数有关。
由对数的运算法则可知:
[公式]

因此,我们有
[公式]

其中负号是用来保证信息量是正数或者零。而 [公式] 函数基的选择是任意的(信息论中基常常选择为2,因此信息的单位为比特bits;而机器学习中基常常选择为自然常数,因此单位常常被称为奈特nats)。 [公式] 也被称为随机变量 [公式] 的自信息 (self-information),描述的是随机变量的某个事件发生所带来的信息量

猜你喜欢

转载自www.cnblogs.com/doragd/p/11373959.html