Hadoop学习笔记之Partitioner分区 - 代码天地

Hadoop学习笔记之Partitioner分区

其他 2018-06-13 19:57:56 阅读次数: 2

partitioner意为分区，在hadoop中，这个阶段在map之后，reduce之前
具体实现共两步：

1、设置分区类

  job.setPartitionerClass(MyPartitioner.class);

自定义partitioner类，MyPartitioner，分区的依据，默认为HashPartitioner，如果不加这设置，仅有下面的setNumReduceTasks，那么也会有多个reduce，但是最后产生的文件内容是随机存放的

public static class MyPartitioner extends Partitioner<Text,Text> {

        @Override
        public int getPartition(Text key, Text value, int numPartitions) {

            int keyInt = Integer.parseInt(key.toString());

            if(keyInt > 5){
                return  3;
            }else if(keyInt > 3 && keyInt <=5){
                return  2;
            }else if(keyInt > 1 && keyInt <= 3){
                return 1;
            }else {
                return 0;
            }

        }
    }

2、设置作业的reduce个数

  job.setNumReduceTasks(6);

默认为1，注意：这个值要大于等于自定义partitioner中的返回个数，如果小于的话，就会报如下错误

Error: java.io.IOException: Illegal partition for 4 (2)

通过以上两步就会在最后结果中生成多个文件part-r-0001,part-r-0002……

另外使用多个reduce也可以提升作业运行效率，对于生成的多个结果文件可以使用cat命令合并到一个文件中

hdfs dfs -cat /user/xxx/output/20180119_chuxing/* >> 20180119_chuxing.txt

什么叫数据倾斜：

数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。

参考资料
Hadoop学习笔记—9.Partitioner与自定义Partitioner

猜你喜欢

转载自blog.csdn.net/diyangxia/article/details/79390840

Hadoop学习笔记之Partitioner分区

学习Hadoop第十四课（自定义分区Partitioner）

Partitioner 分区

【Spark学习】Partitioner分区器初体验

partitioner in Hadoop

Hadoop源码解析之Partitioner类

手写MapReduce之Partitioner分区（Java）

MapRedece中的分区Partitioner

Mapreduce的分区—Partitioner

14.partitioner分区

MapReduce - A - 分区 - Partitioner

Hadoop：MapReduce之倒排索引（Combiner和Partitioner的使用）

Hadoop深入学习：Partitioner组件的设计与实现

hadoop学习：mapreduce入门案例四：partitioner 和 combiner

Hadoop Mapreduce 中的Partitioner

Hadoop详解 ----------- shuffle原理、partitioner分区原理、Combiner编程、常见的MR算法

Hadoop-MapReduce-Partitioner分区，WritableComparable全排序、区内排序、GroupingComparator分组排序，Combiner合并

MapReduce中的分区方法Partitioner

MapReduce之分区器(Partitioner)

MapReduce使用Partitioner分区案例

自定义Partitioner分区

Hadoop学习笔记之--Hadoop的安装

Hadoop中的MapReduce框架原理、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

Hadoop之HBase学习笔记

Hadoop学习笔记之HDFS

Hadoop之block学习笔记

hadoop学习笔记之flume

Linux之硬盘分区学习笔记

hadoop中Combiner和Partitioner

大数据学习之路19-让map按照域名分区，自定义partitioner的使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)