1.特征选择
要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。
2.熵(Entrophy)
比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。
在熵中,这个事件为1,即非常不确定。
此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。
图中给出了一个熵的公式:
当熵=1,不确定性最高
若给出事件:不抽烟的20%是男生,80%是女生
抽烟的95%是男生,5%是女生。
加以权重,比例为0.5477,由此我们得到了0.4523的information gain(信息增益)
3.利用单调性减少计算
若(2,3)的熵高于(1,3,4,5)。则第三分支整个不用继续计算。