决策树与熵、Gini不纯度计算

要使用决策树,就必须计算不纯度,计算公式有熵和基尼不纯度

熵和基尼不纯度计算公式为:





举个例子,假设有样本:
A1 A2
B1 2 8
B2 6 4


则开始的时候,熵值为:

E=-0.1*log2(0.1)-0.4*log2(0.4)-0.3*log2(0.3)-0.2*log2(0.2)=1.846

根据属性A划分样本,则两个子样本分别为:
A1
B1 2
B2 6

A2
B1 8
B2 4


两个子样本的熵分别为0.811和0.92,所以划分后总的样本( 要乘于子样本比例):(8/20)*0.811+(12/20)*0.92=0.88,同样可以计算按照属性B划分样本后样本熵值为:

A1 A2
B1 2 8


子样本1,熵0.72
A1 A2
B2 6 4

子样本2,熵0.97

(10/20)*0.72+(10/20)*0.97=0.845

可以看出,根据属性B划分后,总体的熵值更小,即样本混乱度更小,故根据B划分效果更好

同样可以根据计算基尼不纯度公式计算。实际使用中,熵值对于混乱的惩罚更小,使用熵的情况更多。

猜你喜欢

转载自onmyway-1985.iteye.com/blog/2083384