数据分类(一)决策树

背景知识:

Classification是一个从现有的带有类别的数据集中寻找同一类别数据的共同特征,并以这些特征为依据对新数据进行区分的过程。

分类决策树的核心思想就是在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值(这段话稍后解释),根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止。

用途:

决策树技术主要用来进行分类和预测,以实例为基础的归纳学习算法,用来形成分类器和预测模型。

树的最顶层节点称为根节点,最底层节点称为叶节点,每个叶节点代表产生样本的类别或者类分布;根节点和叶节点之间的节点称为内部节点。

决策树算法:

1.ID3算法

ID3算法是一种基于信息熵的决策树学习算法,它是决策树算法中的典型算法,采用分治策略,在决策树各级节点上选择属性时检测所有属性,选择信息增益最大的属性作为产生决策树的节点。由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树的分支,直到所有子集仅包含同一类别数据为止,最后得到一颗决策树,他可以对新的样本进行分类。

那么什么是决策树,-

决策树中属性值时离散的。比如体检测量中人的升高或者三维时离散的。连续的比如(1,2,3,4,5)这个时连续的。

ID3适用于取值较多的属性,而多数情况下多值属性不一定是最优属性,其次ID3算法只能对于描述属性为离散型属性的数据集构造决策树。

2.C4.5

扫描二维码关注公众号,回复: 4724071 查看本文章

选择信息增益率最大的的描述属性作为分支属性。采用基于信息增益率的方法选择测试属性,

剪枝技术:

在决策树创建时,由于数据中的噪声和孤立点,许多分支反应的是训练数据的异常,剪枝方法处理这种过分适应数据问题,防止决策树过度复杂。

寻找最小决策树是NP问题,所以在现实中不可能找到绝对最小的决策树,只能通过分析数据,实施剪枝,最常见的方法有先剪枝和后剪枝。

(1)先剪枝通过提前停止树的构造而对树进行剪枝,如果一个节点对样本的划分导致低于预定义阈值的分裂,给定子集的进一步划分将停止。

(2)后剪枝是对已经建立好的决策树进行剪枝,后剪枝方法主要通过不断修改子树为叶节点。

猜你喜欢

转载自blog.csdn.net/sinat_32176267/article/details/83245852
今日推荐