什么是信息增益(Information Gain)?

参考链接:

  1. 什么是信息增益(Information Gain)?
  2. 信息熵到底是什么

首先建立一棵决策树。信息增益是一个统计量,用来描述一个属性区分数据样本的能力。信息增益越大,那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩,属性有风力、潮湿度等等。
那么在有统计样本S的情况下,计算某属性信息增益的步骤如下:

  1. 计算不用属性区分的情况下,决策属性在整体样本中的信息熵。
    E n t r o p y ( S ) = p + l o g ( p + ) p l o g ( p ) Entropy(S)=-p+*log(p+)-p-*log(p-)
    其中,p+、p-分别指代的是正例(决策取1,即出去玩)和负例占总记录的比例。系统中各种随机性的概率越均等,信息熵越大,反之越小。
  2. 计算按照该属性把样本分开之后,决策属性在样本中的信息熵。
    以风力属性为例,区分为Weak和Strong,比例分别为 P w e a k P_{weak} P S t r o n g P_{Strong}
    那么:
    G a i n ( W i n d ) = E n t r o p y ( S ) P w e a k E n t r o p y ( W e a k ) P S t r o n g E n t r o p y ( S t r o n g ) Gain(Wind)=Entropy(S)-P_{weak}*Entropy(Weak)-P_{Strong}*Entropy(Strong)

最终我们选择信息熵最大的作为根节点,子节点同样。

猜你喜欢

转载自blog.csdn.net/Rosalind_Xu/article/details/88582694