MapReduce的分区

一:分区Partitioner

在MapReduce中,通过指定分区,mapTask会将同一个分区的数据发送到同一个reduce当中进行处理。也就是把相同类型的数据,发送到同一个reductTask去处理。

注意:分区需要在yarn集群上运行,不能本地测试。

二:代码实现

自定义分区类,注意分区实现阶段在map阶段,也就是分区时的key为k2,v2阶段


import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * 自定义分区
 * 接收的参数是k2,v2
 * 多个分区,对应输出的结果文件也是多个
 */
public class Partition extends Partitioner<Text,NullWritable> {
    /**
     *
     * @param text:k2
     * @param nullWritable:v2
     * @param i
     * @return:返回分区数
     */
    @Override
    public int getPartition(Text text, NullWritable nullWritable, int i) {
        String s = text.toString();
        String[] split = s.split("\t");
        if(Integer.valueOf(split[5]) > 15){
            return 1;//到1号reduceTask
        }
        return 0;//到0号reduceTask
    }
}

三:设置分区类和reduceTask数量

//第三步:自定义分区

job.setPartitionerClass(Partition.class);

//设置分区数,也就是设置有几个reduce,结果会产生几个结果文件,

//如果设置数量过大例如:2块砖,设置了3个人ReduceTask处理,则其中有一个处理为空的内容,则返回的结果文件有一个没有值

//如果设置数量过小例如:2块砖,设置了1个人ReduceTask处理,则会重复处理

job.setNumReduceTasks(2);

驱动程序:

猜你喜欢

转载自blog.csdn.net/qq_15076569/article/details/84206249
今日推荐