信息量的直观描述:
概率很大,受试者事前对事件有估计,所以信息量小;反之,概率很小,受试者对事件感到突然,所以信息量大。
信息量的定义:
一个消息$x$出现的概率是$p$,那么它的信息量为:$$I=-log(p)$$
这也符合信息量关于概率$p$单减的直观感受。底数为2(单位为bit),或者为e(单位nat),或者为10(单位hart)。
信息熵的定义:
一个信源的信息量,即该信源所有可能发出的消息的平均不确定性:$$H(X)=\sum p(x_i)I(x_i)=-\sum p(x_i) log(p_i)$$
信息增益$I(X,Y)=H(X)-H(X|Y)$:度量了在知道Y后,X的不确定性的减少程度
ID3:用信息增量最大的特征作为决策树当前的结点
C4.5
CART
运用场景
参考1:刘建平Pinard的博文内容 https://www.cnblogs.com/pinard/p/6050306.html
参考2:ID3算法的实例分析 https://wenku.baidu.com/view/9bf8646f172ded630b1cb6c1.html