熵(entropy)是表示随机变量不确定性的度量.设X是一个取有限个值的离散随机变量,其概率分布为
P(χ=xi)=pi,i=1,2,…,n则随机变量X的熵定义为
H(χ)=−i=1∑npilogpi当
pi=0时,定义
0log0=0通常上式中对数以2为底或者以e为底.
熵只依赖于X的分布,与X的取值无关,X的熵也记作
H(p)=−i=1∑npilogpi有取值范围
0⩽H(P)⩽logn证明:
∵0⩽pi⩽1且对数的底数大于1, ∴logpi⩽0, ∴0⩽H(p)
当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值.
取pi=n1,H(p)=logn,综上,有0⩽H(P)⩽logn □熵值最大的取值是根据熵的定义得到的.
参考:
《统计学习方法》,李航,p60.