1、集成学习分为哪几种？有何异同？

2、集成学习有哪些基本步骤？请举例说明

3、常用的基分类器有什么？

4、随机森林中的基分类器是否能替换成线性或者K临近？

5、偏差和方差是什么意思？

6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING？

7、GBDT的基本原理是什么？

8、梯度提升和梯度下降的区别和联系是什么？

9、XGBOOST和GBDT的联系和区别有哪些？

10、GBDT的有点和局限性体现在什么地方？

1、集成学习分为哪几种？有何异同？

BOOSTING:分类器串行，各个基分类器之间互相有依赖，进行迭代式学习。

BAGGING:分类器并行学习，同时每个基分类器的数据集是总数据集的子集。

2、集成学习有哪些基本步骤？请举例说明

1、找到误差相互独立的基分类器

2、训练基分类器

3、合并基分类器的结果

3、常用的基分类器有什么？

决策树，原因如下：

1）较为方便的调整权重

2）表达方式和泛化能力可以通过层数进行调节

3）决策树对于样本的扰动影响很大，更加容易出现随机性。

神经网络也可以作为基分类器

4、随机森林中的基分类器是否能替换成线性或者K临近？

效果不好。BAGGING类属于并行学习，那么对于基分类器的随机性和敏感性要求较高，不能太稳定。

5、偏差和方差是什么意思？

偏差：预测数值的均值和实际数值的偏离程度

方差：预测数值和实际数值的离散程度

6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING？

BAGGING:降低了弱分类器的方差

BOOSTING:降低了若分类的偏差

7、GBDT的基本原理是什么？

GBDT属于BOOSTING算法大类

根据样本的负梯度以及残差进行优化。

8、梯度提升和梯度下降的区别和联系是什么？

他们都是基于负梯度进行优化。但是梯度下降针对于参数空间，梯度提升针对于函数空间

9、XGBOOST和GBDT的联系和区别有哪些？

XGBOOST在构建基分类器阶段就加入了正则项，是GBDT在工程上的实现

XGBOOST对代价函数使用了二阶泰勒公式展开，从而计算梯度时可以采用二阶导数

XGBOOST也支持线性分类器作为基分类器

GDBT使用全部数据集，而XGBOOST则对数据集进行了采样

XGBOOST自带对于缺失值的处理

10、GBDT的有点和局限性体现在什么地方？

优点：

1）预测时计算速度快

2）对于稠密数据的表现很好

3）对于预处理的要求比较弱，鲁棒性比较强

缺点：

1）在高维稀疏数据上表现不如SVM和神经网络

2）处理文本分类上效果弱于处理数值分类上

3）训练速度难以有较大的提高

集成学习Q&A

1、集成学习分为哪几种？有何异同？

2、集成学习有哪些基本步骤？请举例说明

3、常用的基分类器有什么？

4、随机森林中的基分类器是否能替换成线性或者K临近？

5、偏差和方差是什么意思？

6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING？

7、GBDT的基本原理是什么？

8、梯度提升和梯度下降的区别和联系是什么？

9、XGBOOST和GBDT的联系和区别有哪些？

10、GBDT的有点和局限性体现在什么地方？

猜你喜欢