Random forest中out-of-bag data占原数据集的30%-40% - 代码天地

Random forest中out-of-bag data占原数据集的30%-40%

其他 2020-04-13 09:26:17 阅读次数: 0

Random forest中out-of-bag data占原数据集的30%-40%

今天在看 Berkeley的网页学习随机森林，有一个很小的细节总是搞不懂，一直抓耳挠腮。在定义out-of-bag data时，Leo Breiman说剩下没被bootstrap抽中的样本大概有1/3。为什么是三分之一呢？这让我一直想不清楚，最后在stackoverflow上看到了答案。（果然stackoverflow上就是大神多）
考虑一个样本量为

N

的集合，对它做一个样本量也是

N

的bootstrap（有放回的抽样）。每次每个样本被抽中的概率是

\frac{1}{N}

，没被抽中的概率是

1-\frac{1}{N}

。最后剩下的样本一定是在

N

次抽取中都没被抽中，这种情况的概率是

(1-\frac{1}{N})^N

。
联想到

e

的两个极限表达

e=\lim_{n\to\infty}(1+\frac{1}{n})^n\\ e=\lim_{n\to\infty}(1+\frac{1}{1!}+\cdots+\frac{1}{n!})

很明显

e^{-1}=\lim_{n\to\infty}(1-\frac{1}{n})^n

所以最后剩下来的out of bag data出现的概率接近

e^{-1}=0.3678...\approx\frac{1}{3}

。即oob数据最终大概占原样本的三分之一。
可以用如下R程序进行验证，我固定随机数发生器为123时，最终的实验值和理论值分别为

(36.970,33.835)

, 非常接近。

set.seed(123)
Re=matrix(0,ncol=2,nrow=200)
for (n in 1:200){
  a=seq(1,n)
  flag=rep(0,n)
  b=sample(a,n,replace=T)
  c=sort(unique(b))
  
  for (i in 1:length(c))
    for (j in 1:n) 
      if(c[i]==a[j]) {
        flag[j]=1; 
        break;
      }
  Re[n,]=c(sum(flag==0),ceiling(n/3))
}
colMeans(Re)

但是随着n增大，实际跑出来的理论与实验的误差会越来越大，感觉和大样本性不符。。。 $n=1000$ 时同一个随机数发生器下的结果为 $(183.944 ,167.167)$ 。原来的误差在1/12左右，现在的误差在1/9左右。更大的数跑起来时间较久，我就没跑了。
附上stackoverflow的链接。

2020.4.5 更新
今天看了Cornell CS的random forest课，里面的教授是说40%。嗯，就0.3678四舍五入法则来看，说成40%确实是更好的。嘻嘻(#^.#)

Huxixu123

发布了2 篇原创文章 · 获赞 0 · 访问量 12

私信关注

猜你喜欢

转载自blog.csdn.net/Huxixu123/article/details/105317862

Random forest中out-of-bag data占原数据集的30%-40%

Out of bag error in Random Forest

sklearn中的random_forest

RFsp — Random Forest for spatial data (R tutorial) （翻译）

Bagging and Random Forest

随机森林（Random Forest）

随机森林 Random Forest

Bagging，Boosting，Random Forest

random_forest

Random Forest And Extra Trees

SKLearn的Random Forest的最简单例子（csv数据文件）

基于数据流的异常检测：Robust Random Cut Forest

缺失数据填补基础方法（2）——Random Forest (MissForest)填补

Numpy中构造数据的random类

【ML】随机森林（Random Forest）

Bootstrap,Bagging and Random Forest Algorithm

Random Forest（sklearn参数详解)

Random Forest面试要点总结

MachineLearning—Random Forest实现 python

MachineLearning—随机森林(Random Forest)

随机森林（Random Forest， RF）

0601-random_forest_demo

随机森林Random Forest （RF）

JAVA中Random类的Random r=new Random()和Random r=new Random(seedValue)的区别

Random Erasing Data Augmentation

random模块 Python中的random模块

详解Python中random库 - random的用法

07_Ensemble Learning and Random Forests_Bagging_Out-of-Bag_Random Forests_Extra-Trees极端随机树_Boosting

numpy中random的用法

JAVA中的Random()函数

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)