R语言——2变量操作

增加新变量：1)使用dataframe$variable<- xxxx来增加变量 2）transform（）函数，按需创建新变量病将其保存到数据框中。

变量重编吗：variable[condition] <- expression，将仅在condition为TRUE的情况下执行赋值

within（）函数可修改数据框

变量重命名：

1）交互式：fix(dataframe)，然后在对话框中修改命名

2）编程式：names(dataframe)[column_number] <- column_name

NA: not available，缺失值

Inf：正无穷大

-Inf：负无穷大

NaN：not a number，不可能的值

na.rm=TRUE，在计算前移除缺失值并使用剩余值进行计算，如sum(x, na.rm=TRUE)

na.omit()，将所有含缺失值的观测整行移除。

Sys.Date()：返回当天日期

date()：返回当前日期和时间

is.datatype()：返回TRUE或FALSE，作为类型判断

as.datatype()：作为类型转换

数据排序：order（）按升序排序，在字段前加-则按降序排序。

数据集合并：

1）横向合并，增加列：merge（dataframe, dataframe, by= “variable”）；直接横向合并无需公共索引则使用cbind（）

2）纵向合并，增加行：rbind(dataframe, dataframe)

剔除变量：

1） names(dataframe) %in% vector返回一个逻辑向量myvars，然后使用逻辑向量挑选列dataframe[!myvars]

2）在知道所需删除列对应变量编号时，可使用dataframe[c(-num, -num)]，通过在编号num前加负号来删除对应行

3）使用dataframe$column_name <- NULL将对应列设置为未定义

选入观测：

subset(dataframe, condition, select=c(……))，condition表示选择条件，select表示保留的列，其后可以跟用c构造的向量，也可使a:b选定从a列到b列，ab可以为数字，也可以为对应列名。

随机抽样：leadership[sample(1:nrow(leadership),3,replace=FALSE)]，第一个参数sample（）选择被抽样的元素组成的向量，3代表抽样的样本数，replace代表是否为有放回的抽样。

使用SQL操作数据：引入sqldf包，使用SQL语句操作数据框。