《机器学习》第四章决策树答案

1、证明对于不含冲突数据（即特征向量完全相同但标记不同）的训练集，必存在与训练集一致（即训练误差为0）的决策树

anser 1：假设不存在与训练集一致的决策树，那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据（若节点上没有冲突数据，那么总是能够将数据分开的）。这与前提-不含冲突数据矛盾，因此必存在与训练集一致的决策树

anser 2：考虑决策树的生成（书p74图4.2），算法生成叶节点，并递归返回条件有：

当前节点的所有样本属于同一类，叶节点类标签 -> 当前类；
当前节点的所有样本在属性上取值相同，叶节点类标签 -> 样本中最多类；
由此可见，若两训练数据样本特征向量相同，那么它们会到达决策树的同一叶节点（只代表某一类），若二者数据标签不同（冲突数据），则会出现训练误差，决策树与训练集不一致。

如果没有冲突数据，到达某节点的样本会出现以下两种情况：

样本间特征向量相同且属于同一类，满足递归结束条件，该节点为叶节点，类标签正确（无训练误差）；
样本间特征向量不同时，递归结束条件不满足，数据会根据属性继续划分，直到上一条情况出现。

综上得证，当数据集不含冲突数据时，必存在与训练集一致（训练误差为0）的决策树。

2、试析使用“最小训练误差”作为决策树划分选择的缺陷。

anser：若以最小训练误差作为决策树划分的依据，由于训练集和真实情况总是会存在一定偏差，这使得这样得到的决策树会存在过拟合的情况，对于未知的数据的泛化能力较差。因此最小训练误差不适合用来作为决策树划分的依据。

3、试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树

4、试编程实现基于基尼指数进行划分选择的决策树算法，并为表4.2中数据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。

5、试编程实现基于对率回归进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树

anser：

6、试选择4个UCI数据集，对上述3种算法所产生的未剪枝、预剪枝、后剪枝决策树进行实验比较，并进行适当的统计显著性检验。

7、图4.2是一个递归算法，若面临巨量数据，则决策树的层数会很深，使用递归方法易导致“栈”溢出，试使用“队列”数据结构，以参数maxDepth控制数的最大深度，写出与图4.2等价、但不使用递归的决策树生成算法。

8、试将决策树生成的深度优先搜索过程修改为广度优先搜索，以参数MaxNode控制树的最大结点数，将题4.7中基于队列的决策树算法进行改写。对比题4.7中的算法，试分析哪种方式更易于控制决策树所需储存不超过内存。

anser：本题实际上是BFS与DFS的比较：

对于深度优先搜索，每深入一层需要存储上一层节点的信息以方便回溯遍历（其存储的是一条路径）；
对于广度优先搜索，每深入一层需要存储当前层兄弟节点信息以实现遍历（其存储的是每层信息，存储量会大一些）；

两种方法各自有防止队列过大化的阈值（即MaxDepth和MaxNode），所以两种方法均可将内存消耗控制在一定范围之内。

当数据属性相对较多，属性不同取值相对较少时，树会比较宽，此时深度优先所需内存较小，反之宽度优先较小。

9、试将4.4.2节对缺失值的处理机制推广到基尼指数的计算中去。

anser：

10、从网上下载或自己编程实现任意一种多变量决策树算法，并观察其在西瓜数据集3.0上产生的结果。

anser：此处要求实现一种多变量决策树算法。实际上3、4题anser 2就是多变量决策树算法。其在西瓜数据集3.0上产生的结果与P85的图4.8一致。