增加新变量:1)使用dataframe$variable<- xxxx来增加变量 2)transform()函数,按需创建新变量病将其保存到数据框中。
变量重编吗:variable[condition] <- expression,将仅在condition为TRUE的情况下执行赋值
within()函数可修改数据框
变量重命名:
1) 交互式:fix(dataframe),然后在对话框中修改命名
2) 编程式:names(dataframe)[column_number] <- column_name
NA: not available,缺失值
Inf:正无穷大
-Inf:负无穷大
NaN:not a number,不可能的值
na.rm=TRUE,在计算前移除缺失值并使用剩余值进行计算,如sum(x, na.rm=TRUE)
na.omit(),将所有含缺失值的观测整行移除。
Sys.Date():返回当天日期
date():返回当前日期和时间
is.datatype():返回TRUE或FALSE,作为类型判断
as.datatype():作为类型转换
数据排序:order()按升序排序,在字段前加-则按降序排序。
数据集合并:
1) 横向合并,增加列:merge(dataframe, dataframe, by= “variable”);直接横向合并无需公共索引则使用cbind()
2) 纵向合并,增加行:rbind(dataframe, dataframe)
剔除变量:
1) names(dataframe) %in% vector返回一个逻辑向量myvars,然后使用逻辑向量挑选列dataframe[!myvars]
2) 在知道所需删除列对应变量编号时,可使用dataframe[c(-num, -num)],通过在编号num前加负号来删除对应行
3) 使用dataframe$column_name <- NULL将对应列设置为未定义
选入观测:
subset(dataframe, condition, select=c(……)),condition表示选择条件,select表示保留的列,其后可以跟用c构造的向量,也可使a:b选定从a列到b列,ab可以为数字,也可以为对应列名。
随机抽样:leadership[sample(1:nrow(leadership),3,replace=FALSE)],第一个参数sample()选择被抽样的元素组成的向量,3代表抽样的样本数,replace代表是否为有放回的抽样。
使用SQL操作数据:引入sqldf包,使用SQL语句操作数据框。