决策树
决策树模型
- 树结构:根节点、叶节点
- 内部节点:对应属性上的测试(相当于分支结构判定器)
- 叶节点:对应一个预测结果(相当于结论)
- 分支:对应测试的某种可能结果(即属性的取值)
- 策略:分而治之、划分属性
- 递归返回:同一类别、无法划分、样本为空
- 基本算法:感觉就像是一系列if else语句的嵌套
划分选择
- 信息熵:度量样本纯度的一种指标;节点的信息熵可以通过公式计算;
- 信息增益:通过信息熵计算得到
- 增益率:通过信息增益+IV(a)计算得到
- 基尼指数:基尼系数越小,数据集的纯度越高
枝叶修剪
- 过拟合:分支过多-需要主动去掉一些分支来降低过拟合风险
- 预剪枝:提前终止某些分支的生长
- 后剪枝:生成完一棵树,再“回头”剪枝
- 性能比较
- 时间开销:预剪枝-训练时间开销低、测试时间开销低;后剪枝-训练时间开销增加,测试时间开销降低;
- 过/欠拟合风险:预剪枝-过拟合风险降低、欠拟合风险增加;后剪纸-过拟合风险降低,欠拟合风险基本不变;
- 泛化性能:后剪纸通常优于预剪枝
连续与缺失值
- 连续值处理:连续属性离散化
- 属性值缺失情况的处理
- 单变量决策树
- 斜决策树