R语言中do.call()的用法

简单参数设置就能搞定的事情,是不会用到do.call的。

在运用R的过程中总会碰到这样一类函数,它们接受的参数数量可以是任意的,该函数会处理这些参数,并返回处理结果。最简单的例子就是data.frame。比如:

> x1 = 1:10
> x2 = 11:20
> x3 = 21:30
> data.frame(x1,x2,x3)
   x1 x2 x3
1   1 11 21
2   2 12 22
3   3 13 23
4   4 14 24
5   5 15 25
6   6 16 26
7   7 17 27
8   8 18 28
9   9 19 29
10 10 20 30

你可以在data.frame函数中加入任意多的向量参数(x1,x2,x3都是向量)。不过现在的情况是:你明确知道你仅将这三个向量拼凑成一个数据框就行了,那么,你写成data.frame(x1,x2,x3)是最好的方法,没必要写成如下的方式:

> do.call("data.frame",list(x1,x2,x3))
   X1.10 X11.20 X21.30
1      1     11     21
2      2     12     22
3      3     13     23
4      4     14     24
5      5     15     25
6      6     16     26
7      7     17     27
8      8     18     28
9      9     19     29
10    10     20     30

不过,假设你遇到的情况是这样:你现在需要从磁盘上的某个文件中读入所有行次的数据,但是随情况变化,文件的长度会发生改变。可是你打算编写一个能同时应对各种长度文件的程序,程序目的是将文件中各行的内容竖过来,按列组成一个数据框。那么请问你有哪些方法?——read.table()+t(),好吧,我承认我又输了,看来do.call还不是最好的选项。

那么如果这个文件各行的类型不同呢?比如一行字符,一行数字,一行布尔值,如此循环延伸,你又能怎么办?

f = file("abc.txt", "r")
n = length(count.fields("abc.txt")) / 3
l = list()
for (i in 1:n) {
        l[[(i-1)*3 + 1]] = scan(file = f, sep = ",", nlines = 1, what = "", quiet = TRUE)
        l[[(i-1)*3 + 2]] = scan(file = f, sep = ",", nlines = 1, what = 0, quiet = TRUE)
        l[[(i-1)*3 + 3]] = scan(file = f, sep = ",", nlines = 1, what = TRUE, quiet = TRUE)
}
names(l) = paste("l", 1:length(l), sep = "")
r = do.call("data.frame", l)
print(r)

好吧,仍然有替代方案:
(1)我就用read.table()+t(),大不了事后再按列转换类型!
(2)仍然是上述循环,我不要每次都把值押入list中,我直接创建data.frame,之后再用cbind()逐列添加,这样就用不着do.call了

那么现在再次提高难度:取消转置函数t()的使用,不允许使用cbind()函数。那么你只能用do.call了。我其实一点都不蛮横,只要换一种情境即可——ffbase包,专门处理大数据的扩展包,其中ffdf对象与data.frame类似(不过可容纳更多数据),但不容易增添新列,且无法转置!ffdf函数是什么你不需要知道,你只要知道它也可以添加任意多的参数即可。

好吧,下面就是一个涉及ffbase包的程序片段,来感受一下do.call的用法吧:

addStrategyData <- function(detailList, index) {

  a = list()
  x = detailList[[index]]
  vMode = sapply(names(x), function(y) switch(y,
                                              "s" = "integer",
                                              "t" = "double",
                                              "f" = "logical"))
                                              
  names(vMode) = names(x)
  x = as.ffdf(x, vmode = vMode)

  for (i in 1:ncol(x)) a[[i]] = x[[i]]
  for (i in (length(a) + 1:length(detailList))) a[[i]] = ff(FALSE, length = nrow(x), vmode = "logical")
  a[[ncol(x) + index]] = ff(TRUE, length = nrow(x), vmode = "logical")

  names(a) = c(names(x), paste("S", 1:length(detailList), sep = ""))

  return(do.call("ffdf", a))

}

某些情况下,你知道某个函数接受参数的明确个数,但是太多了,你懒,所以用do.call;但更多的情况是你迫不得已,必须用它。



猜你喜欢

转载自blog.csdn.net/xiuxiu179/article/details/80752723