三 Decision Tree

其他 2018-07-05 14:54:45 阅读次数: 0

Decision Tree的学习

1 流程

样本是否属于同一类c，（是，作为单结点，标记节点为类c）
判断属性集是否为空或者样本集每个样本的各属性值相同（是，作为单结点，节点标记为样本数量最多的类ck）
选择最优划分属性
确定叶子节点的值
剪枝

2 理解

核心是特征选择的准则
– 信息增益（ID3）
– 信息增益比（C4.5）
– 基尼指数（CART）

3 ID3

信息熵体现了样本集的纯度，熵越小混乱度越小，纯度越高
k为样本种类，比如好瓜坏瓜
信息增益就是分支前-分支后的信息熵
取增益最大的属性作为当前最优划分属性

4 C4.5

信息增益对取值数目多的属性有偏爱，为了减小属性取值数量的影响，提出增益率
信息增益比对取值数量少的属性有偏爱（因此采用启发式选择属性方法，先确定信息增益高于平均水平的属性，在从中选择信息增益比高的属性）

5 回归树 CART

基尼指数：

基尼值GIni（越小纯度越高），代表数据集中取两个样本类别不同的概率，比如好瓜坏瓜，1-p好2-p坏2
这里写图片描述

:基尼指数，对每个分支计算其基尼值，乘以该分支的发概率，类似信息增益和信息熵
这里写图片描述

取Gini_index最小的属性切分点可以如下图所示，去区间中点，进行扫描）
判断评价值是否大于阈值，若不大于阈值，作为单结点，将样本数量做多的类作为节点类别否则根据最优划分属性，属性每种取值作为一个分支
在属性集里去除该属性，对分支重复1-4此操作，得到子树Ti，返回Ti
分支结束后，根据最小二乘法确定叶子节点的值
进行剪枝

6 剪枝

推荐：https://www.cnblogs.com/starfire86/p/5749334.html
常用ccp

猜你喜欢

转载自blog.csdn.net/qq_35282560/article/details/80639756

三 Decision Tree

decision Tree

kaldi 学习笔记-三音素训练1(Decision Tree)

决策树（decision tree）(三)——连续值处理

机器学习（三）——决策树（decision tree）算法介绍

Decision Tree：CART、剪枝

Decision Tree：Analysis

Decision Tree 及实现

Decision Tree(3)

Chapter 4 Decision Tree

Gradient Boosting Decision Tree

MachineLearning—Decision Tree(DT)

decision-tree

Prediction(3)Model - Decision Tree

【机器学习实战】 Decision Tree

决策树（Decision Tree）

决策树——Decision Tree

Gradient Boosted Decision Tree详解

决策树decision tree

决策树 Decision Tree

决策树 — Decision Tree

从decision tree到bagging、boost

Gradient Boosted Decision Tree (GBDT).

Gradient Boosting Decision Tree (GBDT)

Decision tree classifier学习笔记

决策树（Decision Tree

gradient_boosted_decision_tree

GBDT(Gradient Boosting Decision Tree)

Awesome decision tree research papers

Decision tree——决策树

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)