Hadoop中maptask数量的决定因素

转载来自：https://blog.csdn.net/shenxiaoming77/article/details/18358507

刚开始接触hadoop平台的时候部分初学者对于mapreduce中的maptask的数量是怎么确定的可能有点迷惑，如果看了jobclient里面的maptask初始化的那段源码，那么就比较清楚了，MapTask的数量是由InputFormat来指定的，InputFormat生成多少个InputSpilt就会有多少个task。

因此，如果剩余Map slot的数量大于InputSpilt的数量，那么就启动的Map数量就是InputSplit的数量。

如果剩余Map slot的数量小于InputSpilt的数量，那么就启动的Map数量就是剩余的Map slot数量。

下面来看看常用的InputFormat都是怎么生成InputSplit的。

FileInputFormat（平时常用的TextInputFormat和KeyValueTextInputFormat都继承自它）会设置一个hiddenFileFilter把以_和.开头的文件过滤掉，遍历input里面的文件及其子目录中的所有文件，然后对于每个文件，默认是一个block生成一个InputSplit。因此Map的数量>=文件数量，跟block size有关系，会尽量按block来切分。

当我们利用mapreduce来对hbase进行查询的时候，会采用hbase自带的TableInputFormat格式， TableInputFormat是默认使用的HBase的InputStream，继承自TableInputFormatBase。一个InputSplit正好对应了一个Region，因此Map的数量取决于table有多少个region。

转载来自：http://www.cnblogs.com/xiangyangzhu/

1、MapReduce作业中Map Task数目的确定：

1）MapReduce从HDFS中分割读取Split文件，通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元，一个Split文件对应一个Map Task
2）默认情况下HDFS种的一个block，对应一个Split。
3）当执行Wordcount时：
   （1）一个输入文件小雨64MB，默认情况下则保存在hdfs上的一个block中，对应一个Split文件，所以将产生一个Map Task。
   （2）如果输入一个文件为150MB，默认情况下保存在HDFS上的三个block中，对应三个Split文件，所以将产生三个Map Task。
   （3）如果有输入三个文件都小于64MB，默认情况下会保存在三个不同的block中，也将产生三个Map Task。
4）用户可自行指定block与split的关系，HDSF中的一个block，一个Split也可以对应多个block。Split与block的关系都是一对多的关系。
5）总结MapReduce作业中的Map Task数目是由：
   （1）输入文件的个数与大小
   （2）hadoop设置split与block的关系来决定。

2、MapReduce作业中Reduce Task数目的指定：

1）JobClient类中submitJobInternal方法中指定：int reduces=jobCopy.getNumReduceTasks();

2）而JobConf类中，public int getNumReduceTasks(){return geInt("mapred.reduce.tasks",1)}
因此，Reduce Task数目是由mapred.reduce.tasks指定，如果不指定则默认为1.
这就很好解释了wordcount程序中的reduce数量为1的问题，这时候map阶段的partition（分区）就为1了。