数据挖掘-分类-决策树-ID3/C4.5-CART

信息量的直观描述:

  概率很大,受试者事前对事件有估计,所以信息量小;反之,概率很小,受试者对事件感到突然,所以信息量大。

信息量的定义:

  一个消息$x$出现的概率是$p$,那么它的信息量为:$$I=-log(p)$$

  这也符合信息量关于概率$p$单减的直观感受。底数为2(单位为bit),或者为e(单位nat),或者为10(单位hart)。

信息熵的定义:

  一个信源的信息量,即该信源所有可能发出的消息的平均不确定性:$$H(X)=\sum p(x_i)I(x_i)=-\sum p(x_i) log(p_i)$$

信息增益$I(X,Y)=H(X)-H(X|Y)$:度量了在知道Y后,X的不确定性的减少程度

ID3:用信息增量最大的特征作为决策树当前的结点

C4.5

CART

运用场景

参考1:刘建平Pinard的博文内容 https://www.cnblogs.com/pinard/p/6050306.html

参考2:ID3算法的实例分析 https://wenku.baidu.com/view/9bf8646f172ded630b1cb6c1.html

猜你喜欢

转载自www.cnblogs.com/Nooni/p/12677372.html