统计学习方法笔记5

第五章决策树

5.1决策树模型与学习

5.1.1决策树模型

分类决策树模型由结点和有向边组成，结点分为内部结点和叶节点，内部结点表示特征或属性，叶节点表示一个类。
决策树的分类过程：从根节点，对实例某一特征进行测试，根据测试结果将实例分配到子节点。
在这里插入图片描述

5.1.2 决策树与if-then规则

if-then规则：由根节点到叶节点的每条路径构建一条规则：内部结点表示条件，叶节点表示结论，且每个实例都被一条规则覆盖，而且只被一条规则所覆盖。

5.1.3决策树与条件概率分布

给定先验概率（对特征空间的划分），用后验概率来表示决策树。
在这里插入图片描述

5.1.4决策树学习

决策树学习的关键：特征选择，决策树的生成和决策树的剪枝。
特征选择：选择最优特征对训练数据集进行划分，使得子集能够被基本正确分类，构建叶节点。
决策树的生成：数据子集被正确分类，构建叶节点，未被正确分类，选择最优特征继续分类，直到所有数据集基本被正确分类为止，生成决策树。
决策树剪枝：决策树深度过大，出现过拟合现象，剪枝简化模型。