R语言基础

初次编写R语言程序，根据退件使用指南网站https://www.statmethods.net/

一、数据集子集化（数据集筛选）

getwd() #获取当前working directory

statesInfo<-read.csv("stateData.csv") #读取CSV文件


#数据子集化
stateSubset <- subset(statesInfo,state.region ==1) #满足state.region ==1的所有行,后还可有参数选择留下的变量，默认是全部
stateSubset1 <- subset(statesInfo,state.region ==1,select=state.abb:state.region) #保留state.abb到state.region的所有变量
stateSubsetBracker <- statesInfo[statesInfo$state.region==1,] #数组切割法，结果与上行同。

myVars <- c("population", "income", "illiteracy" )
myset <-statesInfo[myVars] 
myvars <- c("v1", "v2", "v3")#保留三个变量
newdata <- mydata[myvars]

myvars <- paste("v", 1:3, sep="") 
newdata <- mydata[myvars] #同上 保留三个变量
newdata <- mydata[c(1,5:10)]#保留第一个，第五个到第十个变量
newdata <- mydata[1:5,] #保留前五个变量
newdata <- mydata[which(mydata$gender=="F" & mydata$age>60)] #根据年龄和性别筛选变量

attach(mydata) #根据年龄和性别筛选变量，同上
newdata <- mydata[ which(gender=='F' & age > 65),]
detach(mydata)

myvars <- names(mydata) %in% c("v1", "v2", "v3") 
newdata <- mydata[!myvars] #删除三个变量"v1", "v2", "v3"
newdata <- mydata[c(-3,-5)] #删除第三个和第五个变量
mydata$v3 <- mydata$v5 <- NULL #删除V3和V5变量（直接原数据删除了，不建议使用）

注：paste用法如下

R语言-Paste函数

该函数和excel中的&一样，可以将不同类型的数据放在一起。

paste(....,sep="",collapse=NULL)

...表示要加在一起的数据类型，e.g

p<-paste("b",1:5)

"b 1" "b 2" "b 3" "b 4" "b 5" 注意这里每一项中间有空格隔开，如果不想要空格，需要使用sep参数

p<-paste("b",1:5,sep="")

"b1" "b2" "b3" "b4" "b5"

所以sep参数的作用是隔开被连接在一起的数据，当然必须是character string，例如：

p <-paste("b",1:5,sep="f")

"bf1" "bf2" "bf3" "bf4" "bf5"

collapse通常不用给出，如果给出，则整个结果变为一个string,例如：

p <-paste("b",1:5,sep="f",collapse="s")

"bf1sbf2sbf3sbf4sbf5"

二、如何设置因子水平

https://stats.idre.ucla.edu/r/modules/factor-variables/

R语言进行EDA——R语言基础

R语言-Paste函数

二、如何设置因子水平

猜你喜欢