什么是信息增益(Information Gain)?

参考链接：

首先建立一棵决策树。信息增益是一个统计量，用来描述一个属性区分数据样本的能力。信息增益越大，那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩，属性有风力、潮湿度等等。
那么在有统计样本S的情况下，计算某属性信息增益的步骤如下：

计算不用属性区分的情况下，决策属性在整体样本中的信息熵。
$Entropy(S)=-p+*log(p+)-p-*log(p-)$
其中，p+、p-分别指代的是正例（决策取1，即出去玩）和负例占总记录的比例。系统中各种随机性的概率越均等，信息熵越大，反之越小。
计算按照该属性把样本分开之后，决策属性在样本中的信息熵。
以风力属性为例，区分为Weak和Strong，比例分别为 $P_{weak}$ 和 $P_{Strong}$
那么:
$Gain(Wind)=Entropy(S)-P_{weak}*Entropy(Weak)-P_{Strong}*Entropy(Strong)$

最终我们选择信息熵最大的作为根节点，子节点同样。

什么是信息增益(Information Gain)?

猜你喜欢