设定InputSplitSize确定Map Task数 - 代码天地

设定InputSplitSize确定Map Task数

企业开发 2018-05-09 22:41:15 阅读次数: 0

都知道运行job时可以通过Job.setNumReduceTasks(int tasks)来设定Reduce任务数，那么Map任务数如何设定呢，API中并没有提供像直接指定Reduce任务数那样来直接指定Map任务数的方法，先来理下逻辑：

首先，文件在上传到Hdfs文件系统的时候，被切分成不同的Block块（默认大小为128MB，这里是hadoop2,hadoop1是64M）。但是每个Map处理的分块有时候并不是系统的物理Block块大小。实际处理的输入分块的大小是根据InputSplit来设定的，那么InputSplit是怎么得到的呢？

看源码可知计算splitSize过程以下是部分代码，可从org.apache.hadoop.mapreduce.lib.input.FileInputFormat查看，该版本为2.6:

public static final String SPLIT_MAXSIZE = "mapreduce.input.fileinputformat.split.maxsize";

public static final String SPLIT_MINSIZE = "mapreduce.input.fileinputformat.split.minsize";

//...

long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

long maxSize = getMaxSplitSize(job);

long splitSize = computeSplitSize(blockSize, minSize, maxSize);

protected long getFormatMinSplitSize() {

return 1;

}

public static long getMinSplitSize(JobContext job) {

return job.getConfiguration().getLong(SPLIT_MINSIZE, 1L);

}

public static long getMaxSplitSize(JobContext context) {

return context.getConfiguration().getLong(SPLIT_MAXSIZE,Long.MAX_VALUE);

}

protected long computeSplitSize(long blockSize, long minSize,long maxSize) {

return Math.max(minSize, Math.min(maxSize, blockSize));

}

因此可以通过如下设定来确定map task数：

FileInputFormat.setMaxInputSplitSize(Job, 1024*1024*size);

FileInputFormat.setMinInputSplitSize(Job, 1l);

猜你喜欢

转载自sungyang.iteye.com/blog/2269161

设定InputSplitSize确定Map Task数

MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

Spark任务中如何确定park分区数、task数目、core数、worker节点个数、excutor数量

Map Task 与 Reduce Task

任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量

Spark：任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量

hive 的map数和reduce如何确定（转）

Task1：两数之和

Task4：三数之和

kafka 确定分区数

MAP/REDUCE TASK作业状态转移图

hive调优之map task数量

Task

Spark executor中task的数量与最大并发数

LeetCode实战 -- Task01. 两数之和

Task5：最接近的三数之和

【leetcode刷题日记】Task10-两数相加

LeetCode实战 -- Task05.最接近的三数之和

LeetCode实战 -- Task04.三数之和

HDU - 3974 Assign the task dfs确定区间+线段树

kafka如何确定分区数

(map)出现最多的数

spark分区数,task数目,core数,worker节点个数,excutor数量梳理

PHP-FPM进程数的设定

PHP-FPM进程数的设定（转）

php-fpm 进程数的设定

Hadoop深入学习：Map Task和Reduce Task的执行流程

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

Storm的并行度详解 Strom Topology执行分析：worker数，Bolt实例数，executor数，task数

map和reduce 个数的设定

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)