通俗易懂的决策树信息准则:信息,熵,信息增益率,基尼系数

我们来回顾学习一下这些概念

一、信息

信息是指能消除随机不确定性的内容,换句话说,告诉你一个想都不用想的事实,就不叫信息了。

比如数据分析师基于大数据想发现一些有用的信息,

  • 有一天上班你告诉上级,基于数据中我们发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息
  • 但是如果你告诉上级,女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多,15-20岁最少,那么我相信你老大会眼前一亮的!!!

如何衡量信息量?1948年有一位科学家香农从热力学中的熵概念,引入了信息的概念,得到了信息度量的数据公式:
信息

p(xi) 代表信息发生的可能性,发生的可能性越大,概率越大,则信息越少,通常将这种可能性叫为不确定性,越有可能则越能确定则信息越少

二、信息熵

信息熵则是在信息的基础上,将有可能产生的信息定义为一个随机变量,那么变量的期望就是信息熵,比如上述例子中变量是赢家,有两个取值,中国或西班牙,两个都有自己的信息,再分别乘以概率再求和,就得到了这件事情的信息熵,公式如下:

猜你喜欢

转载自blog.csdn.net/nixiang_888/article/details/115342564