机器学习算法（二）决策树 - 代码天地

机器学习算法（二）决策树

企业开发 2023-08-01 19:02:56 阅读次数: 0

引言

决策树（Decision Tree）是机器学习中一种经典的分类与回归算法。在本篇中我们讨论用于分类的决策树的原理知识。决策树模型呈树形结构，在分类问题中，一颗决策树可以视作 if-then 规则的集合。模型具有可读性，分类速度快的特点，在各种实际业务建模过程中广泛使用。

1.信息熵

决策树的核心是基于信息熵的数据来生成对应的树分支

假定当前数据集公式中有公式类，其中第公式类样本占比为公式，则信息熵的计算公式如下：在这里插入图片描述
数学公式对应的数学曲线如下请添加图片描述
由公式可以看出，信息熵的计算采用的是概率乘以以二为底的对数得出，大概是这种曲线和熵的变化率比较接近。
对应曲线图形可以看出，当概率在0和1之间的时候熵的值接近0，也就是说当我们的分类在极端属性上的时候信息熵的变化较小，数据较正确

2.决策树生成策略

由下图可以看出决策树的概念和生成策略
当熵越小，说明分类的数据越精确，由此作为上级的根节点
在这里插入图片描述

3.信息增益和信息增益率

下图为信息增益的计算公式
在这里插入图片描述
下图为信息增益率的计算公式
由于单纯根据熵来计算有一个问题，它偏向取值较多的特征。原因是，当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低。
由此我们得出了信息增益和信息增益率的概念
在这里插入图片描述

4.预剪枝与后剪枝

如果我们让决策树一直生长，最后得到的决策树可能很庞大，而且因为对原始数据学习得过于充分会有过拟合的问题。缓解决策树过拟合可以通过剪枝操作完成。而剪枝方式又可以分为：预剪枝和后剪枝。

预剪枝（pre-pruning）：在决策树生长过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点。

后剪枝（post-pruning）：先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能的提升，则将该子树替换为叶结点。

简单来说，预剪枝是自上而下的判断是否需要剪枝，后剪枝是自下而上的判断是否需要剪枝

预剪枝与后剪枝的特点

时间开销：

预剪枝：训练时间开销降低，测试时间开销降低。
后剪枝：训练时间开销增加，测试时间开销降低。
过/欠拟合风险：

预剪枝：过拟合风险降低，欠拟合风险增加。
后剪枝：过拟合风险降低，欠拟合风险基本不变。
泛化性能：后剪枝通常优于预剪枝。

5.连续值与缺失值的处理

因为连续属性的可取值数目不再有限，因此需要连续属性离散化处理，常用的离散化策略是二分法

缺失值处理的基本思路是：样本赋权，权重划分。我们来通过下图这份有缺失值的西瓜数据集，看看具体处理方式。

引用相关: 图解机器学习
 决策树(Decision Tree)：通俗易懂之介绍

猜你喜欢

转载自blog.csdn.net/qq_28976599/article/details/131096035

《机器学习》（二）决策树算法

机器学习算法（二）决策树

【机器学习算法】二、决策树

机器学习（决策树二）——简述决策树

决策树算法

（二）决策树

决策树（二）

决策树（二）

决策树(二)

决策树的学习

决策树学习

机器学习-决策树

机器学习——决策树

机器学习：决策树

机器学习----决策树

机器学习--决策树

【机器学习】：决策树

决策树【机器学习】

【机器学习】--决策树

机器学习---决策树

【机器学习】决策树

机器学习决策树

机器学习决策树

机器学习（决策树）

机器学习#决策树

机器学习_决策树

机器学习 - 决策树

机器学习（二）---决策树算法学习

机器学习算法总结--决策树

机器学习之决策树算法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)