信息增益的代码实现

当子集较少时不必使用for循环即可实现。
步骤很简单:计算总的信息熵,计算标签信息熵,再计算信息增益。
1、创建data1
在这里插入图片描述
2、计算最后一列即跑步中二分类的占比
在这里插入图片描述
3、计算总的信息熵
在这里插入图片描述
4、以一个标签为例计算不同标签的gain值
(1)定义函数并以一个标签为例计算不同子集的信息熵
在这里插入图片描述
(2)计算不同子集所占的比例
在这里插入图片描述
(3)不同子集信息熵与所占比例之积求和
在这里插入图片描述
(4)该标签的信息熵
在这里插入图片描述
5、打包成函数,求不同标签的gain值
在这里插入图片描述
整理为:
在这里插入图片描述

参考文章:https://blog.csdn.net/spartanfuk/article/details/82052503

猜你喜欢

转载自blog.csdn.net/onroadliuyaqiong/article/details/84991456