在机器学习、信息论与统计学中信息熵、条件熵、信息增益、信息增益率(比)、基尼系数这五个概念相当基础也非常重要。
today,博主也捋一捋这基本的概念,由于个人水平所限,还请各位看官多多指教!
信息熵
概念:用来表示随机变量不确定性程度的量,设X是一个取值范围有限的离散随机变量,其概率分布可以表示为:
则随机变量X的信息熵为:
即信息熵就是用来度量随机变量的不确定程度,如果随机变量是唯一确定值(X是常量,只有一个取值情况:x=125)则H(X)=0。信息熵随着变量的不确定程度的增加而增加。
举一个不恰当的例子:信息熵随着变量的取值个数的增加而变大。
条件熵
概念:H(Y|X)表示在随机变量X的条件下随机变量Y的不确定性。公示为:
可以认为是某一事件Y有多个变量影响,其中一个变量X被确定下来了,然后计算Y的信息熵。其实就是在所有情况中筛选出X=xi的事件子集合,在此集合内求信息熵。
信息增益(也称为互信息)
概念:特征A对数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的条件熵H(D|A)之差,即
本质上就是求解,特征A对于确定X取值所做出的的贡献大小(程度)。
信息增益比
概念:特征A对训练数据集D的信息增益比定义为其信息增益g(D,A)与数据集D的信息熵H(D)之比:
基尼指数
概念:分类问题中,假设有K个类,样本点属于第看、类的概率为pk,则概率分布的基尼指数定义为: