三 Decision Tree

Decision Tree的学习

1 流程

  • 样本是否属于同一类c,(是,作为单结点,标记节点为类c)
  • 判断属性集是否为空或者样本集每个样本的各属性值相同(是,作为单结点,节点标记为样本数量最多的类ck)
  • 选择最优划分属性
  • 确定叶子节点的值
  • 剪枝

2 理解

  • 核心是特征选择的准则
    – 信息增益(ID3)
    – 信息增益比(C4.5)
    – 基尼指数(CART)

3 ID3

  • 信息熵体现了样本集的纯度,熵越小混乱度越小,纯度越高
    这里写图片描述

  • k为样本种类,比如好瓜坏瓜

  • 信息增益就是分支前-分支后的信息熵
    这里写图片描述

  • 取 增益最大的属性作为当前最优划分属性

4 C4.5

  • 信息增益对取值数目多的属性有偏爱,为了减小属性取值数量的影响,提出增益率
    这里写图片描述

  • 信息增益比对取值数量少的属性有偏爱(因此采用启发式选择属性方法,先确定信息增益高于平均水平的属性,在从中选择信息增益比高的属性)

5 回归树 CART

基尼指数:

基尼值GIni(越小纯度越高),代表数据集中取两个样本类别不同的概率,比如好瓜坏瓜,1-p好2-p坏2
这里写图片描述

:基尼指数,对每个分支计算其基尼值,乘以该分支的发概率,类似信息增益和信息熵
这里写图片描述

  • 取Gini_index最小的属性切分点可以如下图所示,去区间中点,进行扫描)
    这里写图片描述
  • 判断评价值是否大于阈值,若不大于阈值,作为单结点,将样本数量做多的类作为节点类别否则根据最优划分属性,属性每种取值作为一个分支

  • 在属性集里去除该属性,对分支重复1-4此操作,得到子树Ti,返回Ti

  • 分支结束后,根据最小二乘法确定叶子节点的值

  • 进行剪枝

6 剪枝

  • 推荐:https://www.cnblogs.com/starfire86/p/5749334.html
  • 常用ccp
    这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_35282560/article/details/80639756
今日推荐