R语言进行EDA——R语言基础

R语言基础

初次编写R语言程序,根据退件使用指南网站https://www.statmethods.net/

一、数据集子集化(数据集筛选)

getwd() #获取当前working directory

statesInfo<-read.csv("stateData.csv") #读取CSV文件


#数据子集化
stateSubset <- subset(statesInfo,state.region ==1) #满足state.region ==1的所有行,后还可有参数选择留下的变量,默认是全部
stateSubset1 <- subset(statesInfo,state.region ==1,select=state.abb:state.region) #保留state.abb到state.region的所有变量
stateSubsetBracker <- statesInfo[statesInfo$state.region==1,] #数组切割法,结果与上行同。

myVars <- c("population", "income", "illiteracy" )
myset <-statesInfo[myVars] 
myvars <- c("v1", "v2", "v3")#保留三个变量
newdata <- mydata[myvars]

myvars <- paste("v", 1:3, sep="") 
newdata <- mydata[myvars] #同上 保留三个变量
newdata <- mydata[c(1,5:10)]#保留第一个,第五个到第十个变量
newdata <- mydata[1:5,] #保留前五个变量
newdata <- mydata[which(mydata$gender=="F" & mydata$age>60)] #根据年龄和性别筛选变量

attach(mydata) #根据年龄和性别筛选变量,同上
newdata <- mydata[ which(gender=='F' & age > 65),]
detach(mydata)

myvars <- names(mydata) %in% c("v1", "v2", "v3") 
newdata <- mydata[!myvars] #删除三个变量"v1", "v2", "v3"
newdata <- mydata[c(-3,-5)] #删除第三个和第五个变量
mydata$v3 <- mydata$v5 <- NULL #删除V3和V5变量(直接原数据删除了,不建议使用)

注:paste用法如下

R语言-Paste函数


该函数和excel中的&一样,可以将不同类型的数据放在一起。

paste(....,sep="",collapse=NULL)

...表示要加在一起的数据类型,e.g

​p<-paste("b",1:5)

"b 1" "b 2" "b 3" "b 4" "b 5" 注意这里每一项中间有空格隔开,如果不想要空格,需要使用sep参数

p<-paste("b",1:5,sep="")

​"b1" "b2" "b3" "b4" "b5"

所以sep参数的作用是隔开被连接在一起的数据,当然必须是character string,例如:

p <-paste("b",1:5,sep="f")

"bf1" "bf2" "bf3" "bf4" "bf5"

collapse通常不用给出,如果给出,则整个结果变为一个string,例如:

​p <-paste("b",1:5,sep="f",collapse="s")

"bf1sbf2sbf3sbf4sbf5"

二、如何设置因子水平

https://stats.idre.ucla.edu/r/modules/factor-variables/

猜你喜欢

转载自blog.csdn.net/u013344884/article/details/79493272