机器学习第四周笔记(决策树)

决策树

决策树模型

  • 树结构:根节点、叶节点
  • 内部节点:对应属性上的测试(相当于分支结构判定器)
  • 叶节点:对应一个预测结果(相当于结论)
  • 分支:对应测试的某种可能结果(即属性的取值)
  • 策略:分而治之、划分属性
  • 递归返回:同一类别、无法划分、样本为空
  • 基本算法:感觉就像是一系列if else语句的嵌套

划分选择

  • 信息熵:度量样本纯度的一种指标;节点的信息熵可以通过公式计算;
  • 信息增益:通过信息熵计算得到
  • 增益率:通过信息增益+IV(a)计算得到
  • 基尼指数:基尼系数越小,数据集的纯度越高

枝叶修剪

  • 过拟合:分支过多-需要主动去掉一些分支来降低过拟合风险
  • 预剪枝:提前终止某些分支的生长
  • 后剪枝:生成完一棵树,再“回头”剪枝
  • 性能比较
  • 时间开销:预剪枝-训练时间开销低、测试时间开销低;后剪枝-训练时间开销增加,测试时间开销降低;
  • 过/欠拟合风险:预剪枝-过拟合风险降低、欠拟合风险增加;后剪纸-过拟合风险降低,欠拟合风险基本不变;
  • 泛化性能:后剪纸通常优于预剪枝

连续与缺失值

  • 连续值处理:连续属性离散化
  • 属性值缺失情况的处理
  • 单变量决策树
  • 斜决策树
发布了273 篇原创文章 · 获赞 40 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_41855010/article/details/105065538
今日推荐