人工智能数学之信息论

信息论

信息论(Information Theory)是概率数理统计分支,我们主要看信息论在人工智能中的应用,所以目前只关注相关的信息。例如基于信息增益的决策树,最大熵模型, 特征工程中特征选取时用到的互信息,模型损失函数的交叉熵(cross-entropy)。信息论中log默认以2为底。

基础

1.熵

直观来说熵就是表示事情不确定性的因素度量,熵越大不确定性就越大,而不确定性越大,带来的信息则越多,所以在熵越高,带来的信息越多,不确定性越强。但是确定的东西,带来的不确定性很小,信息也很少,所以熵很低。熵=不确定性=信息量。他们三个成正比例。例如太阳东升西落,熵就为0。一枚质地均匀的硬币,正反面的出现,熵就为1。
公式
设X为离散随机变量,概率分布:
P ( X = xi ) = pi, i = 1,2,3,…,n
则随机变量X的熵为:
H(p) = -∑ pi * log pi
由上式可以得出,太阳东升西落、硬币正反面的熵运算。

2.条件熵

信息增益理解之前我们要理解一下条件熵,信息增益字面理解,信息增加后对最后的目标结果有多大的益处。也就是说通过选择合适的X特征作为判断信息,让Y的不确定性减少的程度越大,则选择出的X越好。而条件熵H(Y|X)表达就是给定X后,Y的不确定性是多少。
H ( Y | X ) = -∑ pi * H ( Y | X = xi )
这里 pi = P( X = xi ) ,i = 1,2,…,n
熵和条件熵中的概率如果通过估计得到,例如极大似然估计,则熵和条件熵将会,变名字经验熵和经验条件熵。

交叉熵

交叉熵被设置为模型的损失函数,表示的两个概率分布的相似程度,交叉熵越小代表预测的越接近真实。
在这里插入图片描述

信息增益

信息增益率

互信息

猜你喜欢

转载自blog.csdn.net/weixin_40192195/article/details/88807562