分类算法 -- 决策树C4.5算法 - 代码天地

分类算法 -- 决策树C4.5算法

其他 2019-02-22 18:20:21 阅读次数: 0

版权声明：未经允许，禁止转载 https://blog.csdn.net/weixin_43216017/article/details/87609780

决策树常用的有ID3，C4.5和CART算法，在得到决策树之后还要对树进行剪枝。

ID3算法：https://blog.csdn.net/weixin_43216017/article/details/87474045
CART算法：https://blog.csdn.net/weixin_43216017/article/details/87617727
决策树的剪枝：https://blog.csdn.net/weixin_43216017/article/details/87534496

在上一篇介绍ID3算法文章中，我们指出ID3算法采用信息增益作为标准，缺点在于会偏向分类更多的自变量，并且不能处理连续值。

在本文中，我们将介绍C4.5算法，采用信息增益比代替信息增益，从而减小某一自变量分类个数的影响。

我们假设使用的数据集为 $D$ ，待计算的自变量为 $A$ ， $g(D,A)$ 则信息增益比为：
$g_r(D,A) = \dfrac{g(D,A)}{H_A(D)}$
其中， $H_A(D) = -\sum_{i=1}^{n}\dfrac{|D_i|}{|D|}log_2\dfrac{|D_i|}{|D|}$

计算实例：

经计算，（信息增益的详细计算过程在上一篇ID3中）
$Gain(A1)=0.083$
$Gain(A2)=0.324$
$Gain(A3)=0.420$
$Gain(A4)=0.363$

下面计算自变量A1的信息增益比， $H_1(D) = -\dfrac{1}{3}log_2\dfrac{1}{3}--\dfrac{1}{3}log_2\dfrac{1}{3}--\dfrac{1}{3}log_2\dfrac{1}{3} = 1.5850$ $g_r(D,A1) = \dfrac{0.083}{1.5850} = 0.0524$

同理可得
$g_r(D,A2) = \dfrac{0.324}{0.9183} = 0.3528$
$g_r(D,A3) = \dfrac{0.420}{0.9710} = 0.4325$
$g_r(D,A3) = \dfrac{0.363}{1.5656} = 0.2319$

一般而言，我们还是要选择一个信息增益比最大的变量。但是，采用信息增益比也有缺点，即它会偏向于分类较少的变量。

我们总结一下：
ID3算法使用的是信息增益，它偏向于分类较多的变量；
C4.5算法使用的是信息增益比，它偏向于分类较少的变量。

为了克服这些问题，我们采取如下方式：首先计算信息增益和信息增益比，然后选取信息增益在平均值以上的那些变量，最后在这些变量中选择信息增益比最大的变量。

例如：在上面的实例中，我们发现变量A2,A3,A4的信息增益在平均值以上。然后，我们就在A2,A3,A4三个变量中选择信息增益比最大的变量。

猜你喜欢

转载自blog.csdn.net/weixin_43216017/article/details/87609780

决策树算法：C4.5

分类算法 -- 决策树C4.5算法

决策树分类算法：C4.5算法

决策树与分类算法之C4.5

机器学习之决策树(C4.5算法)

决策树---C4.5算法的理解

决策树之 C4.5 算法

决策树C4.5算法详解

决策树之C4.5算法

数据挖掘 -- C4.5决策树算法

02-22 决策树C4.5算法

决策树算法-ID3、C4.5

数据挖掘十大算法（一）：决策树分类C4.5算法

5-4 决策树 C4.5决策树的生成算法

C4.5 决策树算法对UCI wine数据集分类的实现(MATLAB)

决策树模型之ID3算法、C4.5算法和CART算法

数据挖掘-分类-决策树-C4.5

Python机器学习 - 决策树 - （ID3算法、C4.5算法） - 代码实现

第4章决策树算法（三 C4.5算法实现）

决策树之理解ID3算法和C4.5算法

机器学习总结（八）决策树ID3，C4.5算法，CART算法

决策树的构建算法 -- ID3 与 C4.5 算法

决策树ID3算法和C4.5算法实战

算法-基于ID3和C4.5的决策树算法

决策树-ID3算法和C4.5算法

决策树算法原理详解（ID3、C4.5、CART树）

C++简单实现C4.5算法生成决策树

机器学习(笔记)--决策树模型 ID3/C4.5/CART算法比较

机器学习算法总结(二)——决策树（ID3, C4.5, CART）

【机器学习】决策树（三）——生成算法（ID3、C4.5与CRAT）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)