Hadoop利用Partitioner对输出文件分类 - 代码天地

Hadoop利用Partitioner对输出文件分类

编程语言 2018-05-13 09:09:31 阅读次数: 2

需求描述：

1. 对文件1.txt中统计每个单词的个数(wordcount)$ cat 1.txt

aa
bb
aa
dd
ff
rr
ee
aa
kk
jj
hh
uu
ii
tt
rr
tt
oo
uu

2. 输出文件限定为两个，其中一个存放aa~kk之间的单词，另外一个存放ll~zz之间的单词

解决方法：

MR默认的reduce输出分区为HashParition

public class HashPartitioner<K, V> extends Partitioner<K, V> { 

  /** Use {@link Object#hashCode()} to partition. */ 
  public int getPartition(K key, V value, 
                          int numReduceTasks) { 
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 
  } 

}

重写改方法即可：

private static class MyPartitioner extends Partitioner<Text,IntWritable> {
		@Override
		public int getPartition(Text key, IntWritable value, int numReduceTasks) {
			if (key.toString().compareTo("aa") >= 0 && key.toString().compareTo("kk") <= 0) {
				return 0;
			} else {
				return 1;
			}
		}
	}

设定conf和job参数：

conf.set("mapred.reduce.tasks", "2");
job.setPartitionerClass(MyPartitioner.class);

输出结果：

$ hadoop fs -cat /lxw/output/part-r-00000
aa      3
bb      1
dd      1
ee      1
ff      1
hh      1
ii      1
jj      1
kk      1

$ hadoop fs -cat /lxw/output/part-r-00001
oo      1
rr      2
tt      2
uu      2

猜你喜欢

转载自superlxw1234.iteye.com/blog/1495465

Hadoop利用Partitioner对输出文件分类

hadoop输出文件格式

Hadoop案例：Partitioner类控制文件输出个数

hadoop的输入和输出文件

Hadoop学习笔记--对输出文件进行压缩

Hadoop自定义outputformat输出文件格式

OutPutStream输出文件

输出文件

partitioner in Hadoop

向页面输出文件

ORACLE EBS输出文件

向HDFS输出文件

java 读取输出文件

Java中的输出文件

python 递归输出文件

FFmpeg写入输出文件

Hadoop学习笔记--运行wordcount时输出文件问题总结

hadoop在进行wordcount时输出文件夹out问题

Hadoop Mapreduce 中的Partitioner

文件输入输出文件

nio读取文件，输出文件

利用qmake分类编译输出的中间文件

[转] 编译输出文件的区别

rev 反向输出文件内容

遍历HDFS目录，并输出文件大小

Apache Geode 管理系统输出文件

mapreduce的reduce输出文件进行压缩

Spark与MR输出文件排序比较

Proguard源码分析(二)输出文件

mapreduce输出文件的重命名

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)