集成学习方法 - 代码天地

集成学习方法

其他 2018-06-23 14:53:45 阅读次数: 2

总结的很棒！

https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/

1、随机森林

https://www.cnblogs.com/maybe2030/p/4585705.html

https://blog.csdn.net/login_sonata/article/details/73929426

一，随机森林

随机森林是一个用随机方式建立的，包含多个决策树的集成分类器。其输出的类别由各个树投票而定（如果是回归树则取平均）。假设样本总数为n，每个样本的特征数为a，则随机森林的生成过程如下：

从原始样本中采用有放回抽样的方法选取n个样本；
对n个样本选取a个特征中的随机k个，用建立决策树的方法获得最佳分割点；
重复m次，获得m个决策树；
对输入样例进行预测时，每个子树都产生一个结果，采用多数投票机制输出。

随机森林的随机性主要体现在两个方面：

数据集的随机选取：从原始的数据集中采取有放回的抽样（bagging），构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。
待选特征的随机选取：与数据集的随机选取类似，随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。

以上两个随机性能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

随机森林的优点：

实现简单，训练速度快，泛化能力强，可以并行实现，因为训练时树与树之间是相互独立的；
相比单一决策树，能学习到特征之间的相互影响，且不容易过拟合；
能处理高维数据（即特征很多），并且不用做特征选择，因为特征子集是随机选取的；
对于不平衡的数据集，可以平衡误差；
相比SVM，不是很怕特征缺失，因为待选特征也是随机选取；
训练完成后可以给出哪些特征比较重要。

随机森林的缺点：

在噪声过大的分类和回归问题还是容易过拟合；
相比于单一决策树，它的随机性让我们难以对模型进行解释。

2、adaboost

3、GBDT

猜你喜欢

转载自www.cnblogs.com/zhaopAC/p/9217134.html

集成学习方法

常用的集成学习方法

集成学习方法总结

集成学习方法的简单理解

集成学习方法Boosting和Bagging

随机森林-集成学习方法（分类）

统计学习方法（5）集成学习（提升方法）

机器学习实战--AdaBoost集成学习方法

机器学习方法总结（六）：集成学习

机器学习笔记(十二)——集成学习方法之AdaBoost

学习方法

openssl学习方法

学习方法（必看）

学习方法心得

机器学习方法

关于学习方法

java学习方法

学习方法（转）

学习方法随笔

学习方法探索

高效学习方法

编程的学习方法

英语学习方法

linux学习方法

外语学习方法

增量学习方法

我的学习方法

学习方法的奥义

谈谈学习方法

Python学习方法

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)