5-2 决策树信息增益的算法

其他 2020-04-24 23:57:35 阅读次数: 0

信息增益的算法

输入：训练数据集D和特征A
输出：特征A对训练数据集D的信息增益g(D,A)

定义：
K：样本标签有K种分类
$C_k$ ：样本标签为k的样本数
m：样本总数
$D_i$ $：样本中第A个特征为$ $a_i$ 的样本数
$D_{ik}$ $：样本中第A个特征为$ $a_i$ 且其标签分类为k的样本数

计算数据集D的经验熵H(D)
$H(D) = -\sum_{k=1}^K P_k\log_2P_k \\ P_k = \frac{C_k}{m}$

计算特征A对数据集D的经验条件熵H(D|A)
$H(D|A) = \sum_{i=1}^n p_iH(D_i) \\ = -\sum_{i=1}^n p_i\sum_{k=1}^K p_{ik}\log_2p_{ik} \\ p_i = \frac {D_i}{m} \\ p_{ik} = \frac {D_{ik}}{D_i}$

即通过特征A分出的每个子集的熵与子集比例乘积的和。

计算信息增益
$g(D, A) = H(D) - H(D|A)$

代码

# 特征和标签的可取值范围：
def H(y):
    sum = 0
    # 计算y可取到的值
    k = set(y)
    for ck in k:
        Pk = y[y==ck].shape[0] / y.shape[0]
        if Pk != 0:
            sum -= Pk * np.log2(Pk)
    return sum

def svm(X, y, feature):
    # 计算X的每个特征可取到的值
    a = set(X[:,feature])
    # 计算数据集的经验熵
    HD = H(y)
    # 计算特征A对数据集D的经验条件熵H(D|A)
    HDA = 0
    for value in a:
        yDi = y[X[:,feature]==value]
        HDA += yDi.shape[0]/y.shape[0] * H(yDi)
    return HD - HDA

windmissing 博客专家

发布了407 篇原创文章 · 获赞 328 · 访问量 111万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/mishifangxiangdefeng/article/details/105030791

5-2 决策树信息增益的算法

决策树信息增益

5.决策树算法

【ML-5】决策树算法

机器学习算法（2）决策树

机器学习算法--决策树2

决策树--信息增益，信息增益比，Geni指数的理解

5-3 决策树 ID3决策树的生成算法

5-4 决策树 C4.5决策树的生成算法

5-5 决策树的剪枝算法

决策树算法

【海量数据挖掘/数据分析】之决策树模型（决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例）

决策树信息熵和信息增益的概念

信息熵与信息增益在决策树生成中的使用

决策树算法：随机森林民主算法【02/2】

机器学习算法总结5:决策树

决策树算法——熵与信息增益（Python3实现）

机器学习算法---决策树中用于特征选择的信息增益

决策树算法：它们无处不在【01/2】

机器学习-决策树 -计算信息增益

基于信息增益的ID3决策树介绍。

决策树中信息增益计算和代码理解

理解决策树信息增益（information gain）

决策树之用信息增益选择最优特征

决策树的划分依据之：信息增益率

python机器学习（六）决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

决策树学习算法

决策树算法（下）

决策树算法（上）

决策树算法总结

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)