Boosting popular machine learning contest, a text thoroughly publicize enough

Author | AISHWARYA SINGH

Translator | Wu Mingli, Zebian | yugao

Produced | AI technology base camp (ID: rgznai100)

Can you name at least two machine learning  Boosting  it?

Boosting has been in existence for many years, but until recently they did not become mainstream machine learning community. So why are so popular these Boosting it?

One of the main popular Boosting is a machine learning competition. Boosting  is a machine learning model gives powers to improve its predictive accuracy. A quick look at Kaggle competition and DataHack hackathon know - Boosting very popular!

In short, Boosting usually better than simple logic model regression and decision trees like superior. In fact, most of the top products on the DataHack platforms are using one or more Boosting Boosting combination to achieve.

In this article, the author will introduce four popular Boosting, you can use the next machine learning hackathon project or use them.

Boosting Quick Start (What is Boosting? )

Imagine this scenario:

You have established a linear regression model, which can verify the accuracy of the data set to reach 77%. Next, you decide through the establishment of k-nearest neighbor (KNN) decision tree model and the model on the same data set to extend your data set. These models accuracy on the validation set was 62% and 89%, respectively.

Clearly, the work of these three models are completely different. For example, a linear regression model attempts to capture the data in a linear relationship, and the decision tree model attempts to capture the non-linear data.

Use a combination of all of these models rather than using any of these models of how to make a final prediction?

 

The average prediction of these models I was considering. In this way, we will capture more information from data.

This is mainly behind the idea of ​​integrated learning. Boosting then appear in the wrong?

Boosting 是使用集成学习概念的技术之一。 Boosting 结合了多个简单模型(也称为弱学习者或基本估计量)来生成最终输出。

我们将在本文中介绍一些重要的 Boosting 。

机器学习中的4种 Boosting 

  • 梯度提升机(GBM)

  • 极端梯度提升机(XGBM)

  • 轻量梯度提升机(LightGBM)

  • 分类提升(CatBoost)

1、梯度提升机(GBM)

梯度提升机(GBM)结合了来自多个决策树的预测来生成最终预测。注意,梯度提升机中的所有弱学习者都是决策树。

但是,如果我们使用相同的算法,那么使用一百个决策树比使用单个决策树好吗?不同的决策树如何从数据中捕获不同的信号/信息呢?

这就是窍门––每个决策树中的节点采用不同的功能子集来选择最佳拆分。这意味着各个树并不完全相同,因此它们能够从数据中捕获不同的信号。

另外,每棵新树都考虑到先前树所犯的错误。因此,每个连续的决策树都是基于先前树的错误。这就是按顺序构建梯度 Boosting 中树的方式。

2、极端梯度提升机(XGBM)

极端梯度提升机(XGBoost)是另一种流行的 Boosting 。实际上,XGBoost只是GBM算法的改进版!XGBoost的工作过程与GBM相同。XGBoost中的树是按顺序构建的尝试用于更正先前树的错误。

 

但是, XGBoost某些功能稍微优于GBM:

1)最重要的一点是XGBM实现了并行预处理(在节点级别),这使其比GBM更快。

2)XGBoost还包括各种正则化技术,可减少过度拟合并改善整体表现。你可以通过设置XGBoost算法的超参数来选择正则化技术。

此外,如果使用的是XGBM算法,则不必担心会在数据集中插入缺失值。XGBM模型可以自行处理缺失值。在训练过程中,模型将学习缺失值是在右节点还是左节点中。

3、轻量梯度提升机(LightGBM)

由于其速度和效率,LightGBM  Boosting 如今变得越来越流行。LightGBM能够轻松处理大量数据。但是请注意,该算法在少数数据点上的性能不佳。

让我们花点时间来了解为什么会出现这种情况。

LightGBM中的树具有叶向生长的,而不是水平生长的。在第一次分割之后,下一次分割仅在损失较大的叶节点上进行。

考虑下图所示的示例:

第一次分割后,左侧节点的损耗较高,因此被选择用于下一个分割。现在,我们有三个叶节点,而中间叶节点的损耗最高。LightGBM算法的按叶分割使它能够处理大型数据集。

为了加快训练过程,LightGBM使用基于直方图的方法来选择最佳分割。对于任何连续变量而不是使用各个值,这些变量将被分成仓或桶。这样训练过程更快,并降低了内存开销。

4、分类提升算法(CatBoost)

顾名思义,CatBoost是一种处理数据中的分类变量的 Boosting 。大多数机器学习算法无法处理数据中的字符串或类别。因此,将分类变量转换为数值是一个重要的预处理步骤。

CatBoost可以在内部处理数据中的分类变量。使用有关特征组合的各种统计信息,将这些变量转换为数值变量。

如果你想了解如何将这些类别转换为数字,请阅读以下文章:

https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic)

CatBoost被广泛使用的另一个原因是,它可以很好地处理默认的超参数集。因此,作为用户,我们不必花费大量时间来调整超参数。

结论

在本文中,我们介绍了集成学习的基础知识,并研究了4种 Boosting 。有兴趣学习其他集成学习方法吗?你应该查看以下文章:

综合学习综合指南(附Python代码):

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/?utm_source=blog&utm_medium=4-boosting-algorithms-machine-learning

你还使用过其他哪些 Boosting ?你使用这些 Boosting 取得了成功吗?欢迎在下面的评论中与我们分享你的想法和经验。

 

原文:

https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/

【End】

技术战“疫”,贾扬清、李飞飞给程序员直播讲AI技术

2月18日、2月20日,阿里云CIO学院攻“疫”技术课程正式开启。您将获得与达摩院数据库首席科学家 、阿里巴巴集团副总裁、ACM 杰出科学家李飞飞,Caffe之父、ONNX创始人、阿里巴巴集团副总裁贾扬清,阿里巴巴集团副总裁、阿里 CIO 学院院长胡臣杰等顶级技术专家直播互动的机会。

推荐阅读 

iPhone 9或于4月3日发布;复制粘贴之父Larry Tesler去世;Android 11开发者预览版来了!| 极客头条

10 万阿里人都爱用的网红工具,语雀如何“用保护钱包的技术在保护文档安全”?

超赞的PyTorch资源大列表,GitHub标星9k+,中文版也上线了

“删库跑路”这件事情真的发生了 ,还是技术总监干的!

别再用那些已经淘汰的技术了!2020 年 9 大顶级 Java 框架出炉!!

31岁年薪50万:“复工第一天,谢谢裁掉我!” 有底气的人生无需解释!

你点的每一个在看,我认真当成了喜欢

猛戳“阅读原文”,立即加入!

发布了1724 篇原创文章 · 获赞 4万+ · 访问量 1548万+

Guess you like

Origin blog.csdn.net/csdnnews/article/details/104421794