熵为什么使用log?

        首先,信息也是物理量,就像质量kg,我们测量质量的方法是,我们选择一个参照物,把这个物体的质量定义为1kg,当想要测量其它物体的质量时就看这个这个物体的质量相当于多少个参照物的质量,这里的多少个便是kg。

         上图中待测物体的质量m等于参照物体的质量B乘以参照物体的个数n,所以当知道总质量m要求个数n时,我们用乘法的反函数,既除法来计算。

        但是测量信息时,不能用除法,比如抛掷3枚硬币能够产生的结果是2的3次方=8种,而不是2*3=6种,是指数关系而不是线性关系,所以当知道可能情况的个数m,想求这些情况相当于多少个(n)参照事件所产生的时,用指数运算的反函数,即对数函数来计算,如下图。

        如果换成选择题,四个选项,选c的概率是1/2,其余三个选项概率相通都是1/6,熵如何计算呢?需要分别测量待测试件的每种可能情况的信息量后,乘以他们各自的发生概率再相加即可。

         首先需要计算概率为1/6的情况的不确定性相当于投掷多少次硬币所产生的的不确定性m,我们知道1%会发生的情况,相当于从100个等概率情况中确定实际情况,概率的倒数等于概率情况的格式,m=1/p,用1/p替换等概率情况个数m后,我们就可以计算每种情况的信息量了,如下图。

        最后,-logp 就是一种可能性的信息量,一个事件总的信息量就是每一种可能的情况的信息量乘以它们发生的概率,其实就是信息量的数学期望。 

扫描二维码关注公众号,回复: 14136225 查看本文章

        至于log的底,我理解他就是一个参考量,机器学习中常用e作为底,有时确实方便计算。

猜你喜欢

转载自blog.csdn.net/xian0710830114/article/details/121702718