R语言对SEER数据库随机分为建模组和验证组 - 代码天地

R语言对SEER数据库随机分为建模组和验证组

其他 2021-03-29 11:17:44 阅读次数: 0

我们从SEER数据库下载到数据库后，一个很重要的步骤就是把数据库随机分为建模组和验证组,一般来说的话是用70%的数据建模，30%的数据进行验证。因为我们很难找到和SEER数据库类似的数据进行外部验证，因此只能对数据进行拆分来验证。下图这个范文，作者就是使用了数据7:3的拆分
在这里插入图片描述

今天我们来说说怎么通过R语言来对SEER数据库按比例拆分为建模集和验证集,还是使用我们常用的既往乳腺癌的数据，
先把数据导入

tr1<- sample(nrow(bc),0.7*nrow(bc))##随机无放抽取
bc_train <- bc[tr1,]#70%数据集
bc_test<- bc[-tr1,]#30%数据集

在这里插入图片描述
OK，数据已经随机抽取好了，把它写成文件就好了

write.csv(bc_train,file = "bc_train.csv")
write.csv(bc_test,file = "bc_test.csv")

在这里插入图片描述
OK，完成，虽然很简单，也是很实用的。
本公众号提供了SPSS、Stata对seer数据库整套挖掘课程，零基础，简单上手，欢迎订阅。
更多精彩文章请关注公众号：零基础说科研

猜你喜欢

转载自blog.csdn.net/dege857/article/details/113765956

R语言对SEER数据库随机分为建模组和验证组

临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗

[SEER01]-SEER数据库介绍与数据下载

GoLang语言对MYSQL数据库的操作

SEER数据库 |3. SEER plus放化疗数据申请流程 (2021版)

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

临床公共数据库挖掘系列1---seer数据库注册

服务器系统对比、数据库对比、后台开发语言对比

R语言对数据进行非参数检验

HANA数据库与R语言的集成

R语言RODBC数据库操作

R语言ORACLE数据库连接

R语言连接数据库

R语言连接Mysql数据库

临床数据库挖掘系列2-使用SEER.stat软件提取数据

从数据库中随机ip代理，并验证

数据库建模

【R语言数据分析】基于R语言对中、美两国GDP分析（R语言大作业）

php将从数据库取出的数据分为6个一组的二维数组

用R语言从数据库SQL中导入数据

R语言连接SQLserve数据库数据

【大数据部落】R语言对推特数据进行文本情感分析

R语言对BRFSS数据探索回归数据分析

R语言连接Mysql数据库的中文乱码问题

R语言dbSendQuery操作数据库

R语言链接MongoDB数据库分析

SEER数据库中肿瘤发病率计算并绘制发病率趋势图

数据库为什么会分为“行式存储”和“列式存储”呢？

R语言对MNIST数据集分析：探索手写数字分类

用R语言对网络数据进行统计分析(四)

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)