集成学习Q&A

目录

1、集成学习分为哪几种?有何异同?

2、集成学习有哪些基本步骤?请举例说明

3、常用的基分类器有什么?

4、随机森林中的基分类器是否能替换成线性或者K临近?

5、偏差和方差是什么意思?

6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING?

7、GBDT的基本原理是什么?

8、梯度提升和梯度下降的区别和联系是什么?

9、XGBOOST和GBDT的联系和区别有哪些?

10、GBDT的有点和局限性体现在什么地方?


1、集成学习分为哪几种?有何异同?

BOOSTING:分类器串行,各个基分类器之间互相有依赖,进行迭代式学习。

BAGGING:分类器并行学习,同时每个基分类器的数据集是总数据集的子集。

2、集成学习有哪些基本步骤?请举例说明

1、找到误差相互独立的基分类器

2、训练基分类器

3、合并基分类器的结果

3、常用的基分类器有什么?

决策树,原因如下:

1)较为方便的调整权重

2)表达方式和泛化能力可以通过层数进行调节

3)决策树对于样本的扰动影响很大,更加容易出现随机性。

神经网络也可以作为基分类器

4、随机森林中的基分类器是否能替换成线性或者K临近?

效果不好。BAGGING类属于并行学习,那么对于基分类器的随机性和敏感性要求较高,不能太稳定。

5、偏差和方差是什么意思?

偏差:预测数值的均值和实际数值的偏离程度

方差:预测数值和实际数值的离散程度

6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING?

BAGGING:降低了弱分类器的方差

BOOSTING:降低了若分类的偏差

7、GBDT的基本原理是什么?

GBDT属于BOOSTING算法大类

根据样本的负梯度以及残差进行优化。

8、梯度提升和梯度下降的区别和联系是什么?

他们都是基于负梯度进行优化。但是梯度下降针对于参数空间,梯度提升针对于函数空间

9、XGBOOST和GBDT的联系和区别有哪些?

XGBOOST在构建基分类器阶段就加入了正则项,是GBDT在工程上的实现

XGBOOST对代价函数使用了二阶泰勒公式展开,从而计算梯度时可以采用二阶导数

XGBOOST也支持线性分类器作为基分类器

GDBT使用全部数据集,而XGBOOST则对数据集进行了采样

XGBOOST自带对于缺失值的处理

10、GBDT的有点和局限性体现在什么地方?

优点:

1)预测时计算速度快

2)对于稠密数据的表现很好

3)对于预处理的要求比较弱,鲁棒性比较强

缺点:

1)在高维稀疏数据上表现不如SVM和神经网络

2)处理文本分类上效果弱于处理数值分类上

3)训练速度难以有较大的提高

猜你喜欢

转载自blog.csdn.net/u010929628/article/details/88750640
Q&A
今日推荐