Decision Tree的学习
1 流程
- 样本是否属于同一类c,(是,作为单结点,标记节点为类c)
- 判断属性集是否为空或者样本集每个样本的各属性值相同(是,作为单结点,节点标记为样本数量最多的类ck)
- 选择最优划分属性
- 确定叶子节点的值
- 剪枝
2 理解
- 核心是特征选择的准则
– 信息增益(ID3)
– 信息增益比(C4.5)
– 基尼指数(CART)
3 ID3
信息熵体现了样本集的纯度,熵越小混乱度越小,纯度越高
k为样本种类,比如好瓜坏瓜
信息增益就是分支前-分支后的信息熵
取 增益最大的属性作为当前最优划分属性
4 C4.5
信息增益对取值数目多的属性有偏爱,为了减小属性取值数量的影响,提出增益率
信息增益比对取值数量少的属性有偏爱(因此采用启发式选择属性方法,先确定信息增益高于平均水平的属性,在从中选择信息增益比高的属性)
5 回归树 CART
- 基尼指数:
-
基尼值GIni(越小纯度越高),代表数据集中取两个样本类别不同的概率,比如好瓜坏瓜,1-p好2-p坏2
:基尼指数,对每个分支计算其基尼值,乘以该分支的发概率,类似信息增益和信息熵
- 取Gini_index最小的属性切分点可以如下图所示,去区间中点,进行扫描)
判断评价值是否大于阈值,若不大于阈值,作为单结点,将样本数量做多的类作为节点类别否则根据最优划分属性,属性每种取值作为一个分支
在属性集里去除该属性,对分支重复1-4此操作,得到子树Ti,返回Ti
分支结束后,根据最小二乘法确定叶子节点的值
- 进行剪枝
6 剪枝
- 推荐:
https://www.cnblogs.com/starfire86/p/5749334.html
- 常用ccp