决策树面试题

1.对特征进行归一化,特征的尺度进行缩放对决策树有影响吗?

没有。

2.决策树的损失函数是什么?

看这个链接

3.简述决策树原理

决策树是一种拥有树形结构的监督学习分类算法模型。

结构包含根节点、内部节点和叶子节点。

根节点:代表包含数据集中所有数据的集合;

子节点:经过属性划分后产生的非叶子节点,代表经过条件划分后更加相似的样本数据;

叶子节点:代表某一个结果类别,在同一个类别的样本数据属于同一个类别。(最下面的节点)

同一叶子节点下的样本会被分类成同一类别,回归问题则是同样的回归值。

4.决策树的优缺点

优点:
小屁孩都能听懂的机器学习算法。
可以处理缺失值。
集成,boosting都可以做
训练好了之后预测速度嗷嗷快。
缺点:
决策树结果可能不稳定,因为在数据中一个很小变化可能生成另一个完全不同的树。
特征过多时候容易过拟合。真的很容易过拟合。
处理关联性较强的特征时表现不好。

5.如何处理过拟合(单树,boosting,bagging)

单树:
预剪枝,后剪枝。

6.预剪枝和后剪枝的区别

预剪枝处理速度快,但是太暴力。容易发生这种现象:该分支收益不大倍减掉了,但是该分支以下的分支其实更好(不应该被剪)。
后剪枝处理速度慢,但是更加精细,保留的分支更多。

7.ID3,C4.5,gini原理,更倾向于?

8.决策树和条件概率分布的关系?

决策树可以理解成在给定条件下类别的概率分布。

9.ID3和C4.5算法可以处理实数特征吗?如果可以应该怎么处理?如果不可以请给出理由?

不可以,因为这两种算法需要计算熵,而数值型特征没有熵的概念。如果需要,则必须进行数据分桶。

10.既然信息增益可以计算,为什么C4.5还使用信息增益比?

信息增益有个缺点,它倾向于选择类别更多的特征。

11.基尼指数可以表示数据不确定性,信息熵也可以表示数据的不确定性. 为什么CART使用基尼指数?

信息增益的计算涉及log运算,速度慢。而gini指数计算速度快得多,在精准度上,gini比信息增益比略差,但是还可以接受。

12.如果特征很多,决策树中最后没有用到的特征一定是无用吗?

不是无用的,从两个角度考虑,一是特征替代性,如果可以已经使用的特征A和特征B可以提点特征C,特征C可能就没有被使用,但是如果把特征C单独拿出来进行训练,依然有效. 其二,决策树的每一条路径就是计算条件概率的条件,前面的条件如果包含了后面的条件,只是这个条件在这棵树中是无用的,如果把这个条件拿出来也是可以帮助分析数据。
13.

猜你喜欢

转载自blog.csdn.net/weixin_44414593/article/details/107767998
今日推荐