决策树面试题

1.对特征进行归一化，特征的尺度进行缩放对决策树有影响吗？

没有。

2.决策树的损失函数是什么？

看这个链接

3.简述决策树原理

决策树是一种拥有树形结构的监督学习分类算法模型。

结构包含根节点、内部节点和叶子节点。

根节点：代表包含数据集中所有数据的集合；

子节点：经过属性划分后产生的非叶子节点，代表经过条件划分后更加相似的样本数据；

叶子节点：代表某一个结果类别，在同一个类别的样本数据属于同一个类别。（最下面的节点）

同一叶子节点下的样本会被分类成同一类别，回归问题则是同样的回归值。

4.决策树的优缺点

优点:
小屁孩都能听懂的机器学习算法。
可以处理缺失值。
集成，boosting都可以做
训练好了之后预测速度嗷嗷快。
缺点：
决策树结果可能不稳定，因为在数据中一个很小变化可能生成另一个完全不同的树。
特征过多时候容易过拟合。真的很容易过拟合。
处理关联性较强的特征时表现不好。

5.如何处理过拟合（单树，boosting,bagging）

单树：
预剪枝，后剪枝。

6.预剪枝和后剪枝的区别

预剪枝处理速度快，但是太暴力。容易发生这种现象：该分支收益不大倍减掉了，但是该分支以下的分支其实更好（不应该被剪）。
后剪枝处理速度慢，但是更加精细，保留的分支更多。

7.ID3,C4.5,gini原理，更倾向于？

8.决策树和条件概率分布的关系？

决策树可以理解成在给定条件下类别的概率分布。

9.ID3和C4.5算法可以处理实数特征吗？如果可以应该怎么处理？如果不可以请给出理由？

不可以，因为这两种算法需要计算熵，而数值型特征没有熵的概念。如果需要，则必须进行数据分桶。

10.既然信息增益可以计算，为什么C4.5还使用信息增益比？

信息增益有个缺点，它倾向于选择类别更多的特征。

11.基尼指数可以表示数据不确定性，信息熵也可以表示数据的不确定性. 为什么CART使用基尼指数？

信息增益的计算涉及log运算，速度慢。而gini指数计算速度快得多，在精准度上，gini比信息增益比略差，但是还可以接受。

12.如果特征很多，决策树中最后没有用到的特征一定是无用吗？

不是无用的，从两个角度考虑，一是特征替代性，如果可以已经使用的特征A和特征B可以提点特征C，特征C可能就没有被使用，但是如果把特征C单独拿出来进行训练，依然有效. 其二，决策树的每一条路径就是计算条件概率的条件，前面的条件如果包含了后面的条件，只是这个条件在这棵树中是无用的，如果把这个条件拿出来也是可以帮助分析数据。
13.