数据挖掘 笔记(4)

1.特征选择
要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。
这里写图片描述

2.熵(Entrophy)
比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。
在熵中,这个事件为1,即非常不确定。
此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。
这里写图片描述

图中给出了一个熵的公式:
当熵=1,不确定性最高
若给出事件:不抽烟的20%是男生,80%是女生
抽烟的95%是男生,5%是女生。
加以权重,比例为0.5477,由此我们得到了0.4523的information gain(信息增益)

3.利用单调性减少计算
这里写图片描述

若(2,3)的熵高于(1,3,4,5)。则第三分支整个不用继续计算。

猜你喜欢

转载自blog.csdn.net/weixin_42511216/article/details/81812899
今日推荐