【数据挖掘】决策树

一、分类与预测

1、分类:根据数据的某些属性,来估计一个特定属性的值(离散值)。
2、预测:根据数据的某些属性,来估计一个特定属性的值(连续值)。
3、常见的方法
基于统计的方法
基于距离的方法
基于决策树的方法(最广泛)
基于神经网络的方法

二、决策树的基本原理

构建决策树的基本过程:
构建决策树;
求见决策树;
生成规则应用于数据库。

节点是一课决策树的主体。没有父节点的节点称为根节点。没有子节点的节点称为叶子节点。一个节点按照某属性被分裂时,称为分裂属性,如“性别”为根节点的分裂属性。每个分支都会被标记一个分裂谓词,如根结点的分裂谓词是“性别=Female”
在这里插入图片描述
修剪决策树
在这里插入图片描述
生成规则
在这里插入图片描述

三、ID3、C4.5、C5.0

·最早(20世纪50年代)的算法是亨CLS(Concept Learning System)提出,后经发展由JR Quinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据
C4.5是ID3后来的改进算法,它在ID3基础上增加了:—对连续属性的离散化
C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进
自信息量
在这里插入图片描述
在这里插入图片描述
信息熵
在这里插入图片描述
信息熵大小反应了不确定性大小,信息熵越大不确定性越大,信息熵越小,不确定性越小。
在这里插入图片描述
(可以把信息熵理解成概率中的数学期望。)

猜你喜欢

转载自blog.csdn.net/qq_44762986/article/details/108546762
今日推荐