Hadoop: Output data to mutiple dir - 代码天地

Hadoop: Output data to mutiple dir

企业开发 2018-05-12 13:46:35 阅读次数: 0

import java.io.IOException;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

public class ImportDataFromMongoReducer extends Reducer<Text, Text, Text, Text> {

	private static final Log LOG = LogFactory
			.getLog(ImportDataFromMongoReducer.class);
	private MultipleOutputs out;

	public void setup(Context context) {
		out = new MultipleOutputs(context);
	}

	private String generateFileName(Text k) {

		return k.toString() + "/part";
	}

	@Override
	public void reduce(final Text pKey, final Iterable<Text> pValues,
			final Context pContext) throws IOException, InterruptedException {

		for (final Text value : pValues) {
			// pContext.write(pKey, value);

			out.write(NullWritable.get(), value, generateFileName(pKey));
		}

	}

	protected void cleanup(Context context) throws IOException,
			InterruptedException {
		out.close();
	}
}

扫描二维码关注公众号，回复： 599670 查看本文章

References

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

http://www.infoq.com/articles/HadoopOutputFormat

猜你喜欢

转载自ylzhj02.iteye.com/blog/2111530

Hadoop: Output data to mutiple dir

【FATE联邦学习】get out put data报错output dir = result[“directory“]KeyError:directory“

hadoop dir

C＜5＞use arrays to manipulate mutiple data（note）

hadoop集群dfs.data.dir目录权限问题导致节点无法启动

Hadoop的data.dir配置导致balancer无法平衡各节点

Data Recording Output

查询DATA_PUMP_DIR

sas table data formate output

hadoop修改hadoop.tmp.dir

查询SDE数据库，GSON报错：declares mutiple JSON fields named data

Missing javaCompileTask for variant: debug/0 from output dir

【Hadoop】HADOOP_HOME and hadoop.home.dir are unset.

dir.who is not allowed to impersonate hadoop的问题

Output directory hdfs://hadoop:8020/user/root/output already exists

l.output data format [darknet]

dir()

Mutiple Liner Regression

DATA_PUMP_DIR impdp 指定导出目录

记录一次深夜救火：datanode.data.dir

Oracle数据库默认的data pump dir在哪

Kite: A Data API for Hadoop

hadoop: data join exception

Hadoop: Data Join

The process NodeManager clean Application log and intermediate data like map output

java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset-hadoop.dll

Hadoop:Integrating Hadoop Data with Oracle Parallel Processing

mutiple threads----condition variable

[工程构建] mutiple definition of 问题

Moving Data in/out of Hadoop Filesystem

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)