决策树中信息增益计算和代码理解 - 代码天地

决策树中信息增益计算和代码理解

其他 2019-05-14 12:31:04 阅读次数: 0

基础知识：

1、随机变量 $X=Xi(i=1,2,..n)$ 的熵的定义：

2、随机变量X给定条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

其中计算H(Y|X=Xi)=求和P(Xi|X)*H(Di)

3、信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，信息增益的用g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即

4、决策树节点分裂时按照信息增益最小的原则来选择特征

代码：

number_feature = len(dataset[0]) - 1
    base_shannoent = shannon_Ent.calc_shannon(dataset)
    bestinfogain=0.0; bestfeature = -1
    for i in number_feature:
        fearlist = [example[i] for example in dataset]
        uniquevals =set(fearlist)
        new_entropy = 0.0
        for value in uniquevals:
            subdataset = splitDatase.split_dataset(dataset,i,value)
            prob = len(subdataset)/float(len(dataset))
            new_entropy += prob*shannon_Ent.calc_shannon(subdataset)
        infogain = base_shannoent - new_entropy
        if( infoGain > bestinfogain):
           bestinfogain = infoGain
           bestfeature = i

其中，用A表示特征的话， i表示的是集合dataset中的第i个特征（Ai），uniquevals代表的是第i个特征（Ai）的所有取值(Ai=Aii)

for value in uniquevals内的代码;

1\先将集合D按照特征Ai的取值Aii划分成不同的子集合Di，

2\再计算p(Aii|Ai)

3\再计算p(Aii|Ai)*H(Yi),再对p(Aii|Ai)*H(Di)求和，得到H(D|Ai)

之后执行H(D)-H(D|Ai)得到g(D,Ai)

最后比较i为何值时g(D,Ai)最大，得到最优特征

猜你喜欢

转载自blog.csdn.net/qq_33374294/article/details/89303409

决策树中信息增益计算和代码理解

决策树--信息增益，信息增益比，Geni指数的理解

决策树信息增益

理解决策树信息增益（information gain）

机器学习-决策树 -计算信息增益

决策树信息熵和信息增益的概念

【海量数据挖掘/数据分析】之决策树模型（决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例）

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

信息熵与信息增益在决策树生成中的使用

简单粗暴理解与实现机器学习之决策树算法（二）：决策树分类原理、熵、决策树的划分依据之信息增益and信息增益率and基尼值和基尼指数、常见决策树类型比较、cart剪枝（附手写笔记）

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）

【机器学习】P23 决策树、熵和信息增益

基于信息增益的ID3决策树介绍。

5-2 决策树信息增益的算法

决策树之用信息增益选择最优特征

决策树的划分依据之：信息增益率

（决策树中的）信息熵和样本分类的信息熵计算源代码

【机器学习笔记day19】3.7. 分类算法之决策树、随机森林+特征选择+信息的度量和作用+信息增益+信息增益的计算+决策树本地保存+决策树优缺点分析+集成方法之随机森林+泰坦尼克号乘客数据案例

python机器学习（六）决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

关于决策树ID3算法，熵，信息增益率的权威解释，稍后奉上python代码

决策树学习之概念理解和代码实现

【决策树】一文看懂图解决策树原理：信息熵、条件熵与信息增益

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

《机器学习》第4章决策树之详解信息熵，信息增益

决策树和信息熵

决策树的理解

决策树算法——熵与信息增益（Python3实现）

python实现西瓜书《机器学习》习题4.3信息增益决策树

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)