读书笔记-《机器学习》第四章:决策树

第四章 决策树
  • 一般的,一颗决策树包含一个根节点。若干个内部节点和若干个叶节点。从根节点到每个叶节点的路径对应了一个判定测试序列
  • 决策树的生成是一个递归的过程。在决策树基本算法中,有三种情形会导致递归返回
    • 当前结点包含的样本全属于同一类别,无需划分
    • 当前属性集为空,或是所有样本在所有属性值上的取值相同,无法划分
    • 当前结点包含的样本集合为空,不能划分
  • 决策树划分选择
    • 信息增益:对取值种类较多的特征有所偏好
    • 信息增益率
    • 基尼指数:从数据集D中随机取两个样本,其标记类别不一样的概率
  • 剪枝
    • 预剪枝:不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。但可能有欠拟合的风险
    • 后剪枝:一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多
  • 连续值处理:二分法
  • 缺失值处理:先用未缺失样本进行划分,再将缺失样本以不同的概率划入到不同的子结点中
  • 决策树所形成的分类边界有一个明显的特点:轴平行,即它的分类边界由若干个与坐标轴平行的分段组成
  • 多变量决策树:非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试
  • 剪枝方法和程度对决策时泛化性能的影响是相当显著的,有实验研究表明,在数据带有噪声时通过剪枝甚至可将决策树的泛化性能提高25%

猜你喜欢

转载自blog.csdn.net/lz_peter/article/details/79850909