信息熵,条件熵,信息增益与信息增益比

1. 信息熵

表示随机变量不确定性的度量。设 X 是一个取有限值的离散随机变量,其概率分布为

                                                                        P(X=x_{i})=p_{i}, i=1,2,...,n

那么随机变量 X 的信息熵

                                                                                 H(X)=- \sum_{i=1}^n{p_ilogp_i}}

 当 p_1=p_2=...=p_n=\frac{1}{n} 时,信息熵H(X) 取最大。

1.1 证明

要求 H(X) 最大

                                                                        maxH(X)=- \sum_{i=1}^n{p_ilogp_i}}, st. \sum_{i=1}^np_i=1

首先构造拉格朗日公式,

                                                                     maxL(X,\alpha )=- \sum_{i=1}^n{p_ilogp_i}} + \alpha(\sum_{i=1}^np_i-1)

然后对 p_i 求导,得到 p_i 为一常数,所以结论成立。

2. 条件熵

条件熵 H(Y|X) 表示已知随机变量 X 的条件下,随机变量 Y 的不确定性,定义为

                                                                               H(Y|X)=\sum_{i=1}^n{p_iH(Y|X=x_i)}

其中,p_i=P(X=x_i), i=1,2,...n

3. 信息增益

特征 A 对训练集 D 的信息增益 g(D, A) 是,集合 D 的经验熵 H(D) 与给定特征 A 的条件下 D 的经验条件熵 H(D|A) 之差,即

                                                                                    g(D, A)=H(D)-H(D|A)

一般地,熵 H(Y) 与条件熵 H(Y|X) 之差称为互信息。

信息增益表示特征 A 对训练集 D 的分类不确定性的减少程度。

4. 信息增益比

特征 A 对训练集 D 的信息增益比的定义是

                                                                                       g_r(D,A)=\frac{g(D,A)}{H(A)}

猜你喜欢

转载自blog.csdn.net/LookayKwok/article/details/81409214