数据管理

一、数据集合并

1、使用merge函数

               total<-merge(dataframeA,dataframeB,by="")

2、使用cbind,rbind函数(合并矩阵或者数据框)

二、数据集取子集

选入(保留)变量:

              Vars<-c(.......)

              mydata<-dataframe_name[Vars]

剔除(丢弃)变量

1.使用%in%

             myvars<- names(leadership)  %in%  c("q1","q2")

             newdata<- leadership[!myvars]

2.使用索引

            newdata<- leadership[c(-8,-9)]

3.赋值

           将要去除的变量列赋值为NULL即可去除变量

4.选入观测

A.通过索引或者条件表达式

           newdata<- leadership[1:3,]

           newdata<-leadership[ leadership$gender=="M"7leadership$age>30]

三、使用subset函数(可以选择变量和观测)

           subset(数据集,条件表达式,select)

           newdata<- subset(  leadership,  age>=35|age<24,   select=c(q1,q2,q3,q4))

四、随机抽样

           mysample<- leadership[ sample(1:nrow(leadership), 3, replace=FALSE),  ]

五、使用SQL语句操作数据框

          install.packages("sqldf")

          newdf<-sqldf("SQL语句",row.names=TRUE)

          newdf<-sqldf("select * from mtcars where carb=1 oeder by mpg",roe.names=TRUE)










猜你喜欢

转载自blog.csdn.net/intelligebce/article/details/80256817