随机森林(R语言) - 代码天地

随机森林(R语言)

编程语言 2021-03-24 19:23:23 阅读次数: 0

随机森林可处理大量输入变量，并且可以得到变量重要性排序，在实际中，有广泛应用。本文简要展示R语言实现随机森林的示例代码，并通过F值判断模型效果。

随机森林

随机森林是一种常用的集成学习算法，基分类器为决策树。每棵树随机选择观测与变量进行分类器构建，最终结果通过投票得到。一般每棵树选择logN个特征（N为特征数），如果每棵树都选择全部特征，则此时的随机森林可以看成是bagging算法。R语言中，可通过randomForest包中的randomForest()函数完成随机森林算法。

R语言实现

导入包与数据，并根据3:7将数据分为测试集和训练集。

target.url <- 'https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data'

data <- read.csv(target.url,header = F)

set.seed(17)

index <- which( (1:nrow(data))%%3 == 0 )

train <- data[-index,]

test <- data[index,]

library(randomForest)

进行随机森林训练。randomForest()函数中的两个重要参数为ntree和mtry，其中ntree为包含的基分类器个数，默认为500；mtry为每个决策树包含的变量个数，默认为logN，数据量不大时可以循环选择最优参数值。

err<-as.numeric()

for(i in 1:(length(names(train)))-1){

mtry_test <- randomForest(V61~., data=train, mtry=i)

err<- append( err, mean( mtry_test$err.rate ) )

}

print(err)

mtry<-which.min(err)

ntree_fit<-randomForest(V61~., data=train, mtry=mtry, ntree=1000)

plot(ntree_fit)

发现mtry取7时err最小，ntree取900时误差稳定。

得到最终分类器，并观察模型效果和变量重要性。

rf<-randomForest(V61~., data=train, mtry=mtry, ntree=900, importance=T )

rf

模型误差为20.14%。然后可以通过精确度和基尼系数，判断变量重要性。

importance(rf)

varImpPlot(rf)

对测试集进行预测，并计算F值，用来判断模型效果。

pred1<-predict(rf,newdata=test)

Freq1<-table(pred1,test$V61)

tp<-as.data.frame(Freq1)[4,3]

tn<-as.data.frame(Freq1)[1,3]

fn<-as.data.frame(Freq1)[2,3]

fp<-as.data.frame(Freq1)[3,3]

p<-tp/(tp+fp)

r<-tp/(tp+fn)

f<-2/(1/p+1/r)

最终发现，F值为0.87。

猜你喜欢

转载自blog.51cto.com/15127586/2670969

R语言随机森林

随机森林(R语言)

R语言随机森林分类

R语言：随机森林的实现——randomForest

随机森林篇 R语言实现

R语言：使用randomForestExplainer理解随机森林

随机森林 R

随机森林插补法 R语言之Random Forest随机森林

R语言笔记之装袋树和随机森林

R语言之决策树和随机森林

R语言开发之随机森林了解下

R语言之Random Forest随机森林（转载）

R语言︱决策树族——随机森林算法

随机森林算法介绍及R语言实现

随机森林算法（Random Forest）R语言实现

R语言手动绘制随机森林决策曲线

R语言使用随机森林进行疾病预测

R语言使用随机森林进行客户流失预测

R语言实现随机生存森林（3）

R语言深度学习中的森林覆盖类型预测：随机森林模型实现

随机森林_R代码及用法

R语言用随机森林和文本挖掘提高航空公司客户满意度

分类树/装袋法/随机森林算法的R语言实现

【机器学习】随机森林处理数据实践（基于R语言）

R语言泰坦尼克号随机森林模型案例数据分析

R语言基于树的方法：决策树，随机森林，套袋Bagging，增强树

6.R语言分类回归树--决策树、随机森林

R语言预测海藻频率（多元线性回归、回归树、组合随机森林）

R语言随机森林模型中具有相关特征的变量重要性

基于R语言做决策树和随机森林(3)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)