《机器学习》赵卫东学习笔记第3章决策树与分类算法（课后习题及答案）

1. 分类解决什么问题?

分类算法是利用训练样本集获得分类函数即分类模型(分类器)，从而实现将数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性集与类别之间的潜在关系，并以此为依据对新样本属于哪一类进行预测

2. 常用的分类算法有哪些?举例说明其应用。

常用的分类算法包括决策树、支持向量机、最近邻、贝叶斯网络和神经网络等

3. 简述决策树的生成过程。

决策树的构建过程是按照属性的优先级或重要性来逐渐确定树的层次结构，使其叶子结点尽可能属于同一类别，一般采用局部最优的贪心策略来构建决策树

4. 总结常用的决策树C5.0， CHAID，CART 等算法的分支标注。

C5.0算法选择分支变量的依据：以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。

CHAID算法分支处理的标注指标是独立性检验和相关性（分裂后自变量与目标变量的相关性）。

CART算法在分支处理中分支属性的度量指标是Gini指标。

5. 举例说明连续属性离散化的几种方法。

非监督离散化不需要使用分类属性值，相对简单，有等宽离散化、等频离散化、聚类等方法，等宽离散化将属性划分为宽度一致的若干个区间；等频离散化将属性划分为若干个区间，每个区间的数量相等；聚类将属性间根据特性划分为不同的簇，以此形式将连续属性离散化。监督离散化常用的方法是通过选取极大化区间纯度的临界值来进行划分，C4.5与CART算法中的连续属性离散化方法均属于监督离散化方法；CART 算法使用Gini系数作为区间纯度的度量标准；C4. 5算法使用熵作为区间纯度的度量标准。结合几种方法举例说明即可。

6. 什么是过拟合问题?如何判断过拟合?

模型的训练误差低但是泛化误差比较高，则称此分类模型过拟合。

7. 如何减少过拟合?

解决过拟合问题，一方面要注意数据训练集的质量，选取具有代表性样本的训练样本集。另一方面要避免决策树过度增长，通过限制树的深度来减少数据中的噪声对于决策树构建的影响，一般可以采取剪枝的方法

8. 在决策树的训练过程中，如果通过剪枝减少过拟合?举例说明。

剪枝是用来缩小决策树的规模，从而降低最终算法的复杂度并提高预测准确度，包括预剪枝和后剪枝两类。预剪枝的思路是提前终止决策树的增长，在形成完全拟合训练样本集的决策树之前就停止树的增长，避免决策树规模过大而产生过拟合。后剪枝策略先让决策树完全生长，之后针对子树进行判断，用叶子结点或者子树中最常用的分支替换子树，以此方式不断改进决策树，直至无法改进为止。

9.决策树的学习质量如何评价?

对于一般分类问题，有训练误差、泛化误差、准确率、精确率、召回率、F值、受试者工作特征曲线 (ROC)曲线等指标

10.ROC曲线如何绘制?它的主要功能是什么?

通过将连续变量设定出多个不同的临界值，从而计算出一系列真正率和假正率，再以假正率为纵坐标、真正率为横坐标绘制成ROC曲线。

ROC曲线下面积越大，模型准确性越高。在ROC曲线上，最靠近坐标图左上方的点为假正率和真正率均较高的临界值。

11.AUC与ROC的关系是什么?

ROC曲线下的面积称为AUC，AUC值越大，表示分类模型的预测准确性越高，ROC曲线越光滑，一般代表过拟合现象越轻

12.阅读文献，讨论k折交叉校验的方法。

k折交叉验证法将样本集随机地划分为k个大小相等的子集，在每一轮交叉验证中， 选择一个子集作为检验集，其余子集作为训练集，重复k轮，保证每一个子集都作为检验集出现，用K轮检验结果取平均值作为模型好坏的评价标准。最常用的k折交叉验证法为十折交叉验证

13.集成学习的基本原理是什么?举例说明集成学习的应用。

集成学习方法是指组合多个模型，以获得更好的效果，使集成的模型具有更强的泛化能力。使用集成方法时会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成，还可以是数据集不同部分分配给不同学习模型之后的集成。最常见的集成思想有两种bagging和boosting。举例略。

14.讨论GBDT算法的过程以及应用。

梯度提升决策树算法是利用梯度下降的思想，使用损失函数的负梯度在当前模型的值，作为提升树中残差的近似值，以此来拟合回归决策树。梯度提升决策树的算法过程如下：

初始化决策树，估计一个使损失函数最小化的常数构建一个只有根节点的树。

不断提升迭代：计算当前模型中损失函数的负梯度值，作为残差的估计值；估计回归树中叶子节点的区域，拟合残差的近似值；利用线性搜索估计叶子节点区域的值，使损失函数极小化；更新决策树。

经过若干轮的提升法迭代过程之后，输出最终的模型

15.以随机森林为例，讨论为什么集成学习能否提高分类的性能。

传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器。可以通过聚集多个分类器的预测结果提高分类器的分类准确率，这一方法即为集成学习。该方法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类。随机森林算法目标是通过将多个弱学习机（如单棵决策树）组合得到一个强学习机。随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。这样就集成了多个分类器的分类结果，达到了更好的分类性能。

16. 举例说明决策树在实际分类项目中的应用。

结合课本的案例说明即可。