1、流程:inputformat--mapper--patitioner--reduce--outputformat
2、split个数的确定:520M的文件 一个block为128M 则split的个数为4 4*128=512 剩下的8<128*0.1 则这个8可以和上一个split一起处理
如果两个文件 一个5个块,一个3个块,有四个split,则需要几个map(不能跨文件)?需要2个或者3个。因为前面5个块的最后一个大小不确定,如果比较小就可以和上一个map一起处理。
1、流程:inputformat--mapper--patitioner--reduce--outputformat
2、split个数的确定:520M的文件 一个block为128M 则split的个数为4 4*128=512 剩下的8<128*0.1 则这个8可以和上一个split一起处理
如果两个文件 一个5个块,一个3个块,有四个split,则需要几个map(不能跨文件)?需要2个或者3个。因为前面5个块的最后一个大小不确定,如果比较小就可以和上一个map一起处理。