MapReduce深入剖析

1、流程:inputformat--mapper--patitioner--reduce--outputformat

2、split个数的确定:520M的文件   一个block为128M 则split的个数为4  4*128=512 剩下的8<128*0.1 则这个8可以和上一个split一起处理

如果两个文件 一个5个块,一个3个块,有四个split,则需要几个map(不能跨文件)?需要2个或者3个。因为前面5个块的最后一个大小不确定,如果比较小就可以和上一个map一起处理。


猜你喜欢

转载自blog.csdn.net/weixin_42656511/article/details/81022082