MapReduce切片机制以及maptask和reducetask并行度设置 - 代码天地

MapReduce切片机制以及maptask和reducetask并行度设置

其他 2018-09-09 21:11:47 阅读次数: 0

MapReduce运行流程

1最先启动MRAppMaster，MRAppMaster根据job的描述信息，计算需要的maptask实例的数量，然后向集群申请机器，启动相应数量的maptask进程。

2 maptask启动之后，根据给定的数据切片范围进行数据处理。

A 利用指定的inputformat来获取RecordReader对象读取数据，形成KV输入。

B 将输入的kv对传递给客户定义的map方法，做逻辑运算，将map方法输出的kv对收集到缓存。

C 将缓存中的KV对按照K分区排序会溢写到磁盘文件。

3 MRAppMaster监控到所有maptask进程任务完成之后（真实情况是，某些maptask进程处理完成以后，就会开始启动reducetask去已经完成maptask处去fetch数据），会根据客户指定的参数启动相应数量的reducetask进程。并告知reducetask进程要处理的数据范围（数据分区）。

4 ReduceTask进程启动以后，根据MRAppMaster告知的待处理数据的位置，抓取maptask的输出结果文件，并在本地进行重新归并排序。按照相同key的KV为一个组，调用客户定义的reduce方法进行逻辑运算，收集输出的结果KV，调用客户指定的outputformat将结果数据输出到外部的存储。

maptask并行度决定机制

Maptask的并行度决定了map阶段的任务处理并发程度。

一个job的map阶段并行度由客户端提交的job决定。

客户端对map阶段并行度的规划逻辑为：

将待处理数据执行逻辑切片。按照一个特定切片的大小，将待处理的数据划分成逻辑上的多个split，然后每一个split分配一个maptask实例，并进行处理。

这段逻辑以及形成的切片规划描述文件，是由FileInputFormat实现类的getSplits方法来完成的。该方法返回List，每个InputSplit封装了一个逻辑切片的信息，包括长度和位置等信息。

猜你喜欢

转载自blog.csdn.net/guo20082200/article/details/82317791

MapReduce切片机制以及maptask和reducetask并行度设置

【大数据】MapTask并行度和切片机制

Hadoop数据切片与MapTask并行度决定机制

切片与MapTask并行度决定机制

MapReduce补充-排序-分组-切片和shuffle机制Split切片机制

切片与MapTask并行决定机制

大数据（九）：MapReduce工作机制和切片机制理论

mapTask和ReduceTask工作机制以及mapreduce完整流程

CombineTextInputFormat 切片机制以及实例

MapReduce【MapTask和ReduceTask的工作机制】

FileInputFormat切片机制和配置参数

Hadoop MapReduce Splits 切片源码分析及切片机制

Hadoop CombineTextInputFormat 切片机制

hadoop 切片机制详解

大数据-Hadoop生态(14)-MapReduce框架原理-切片机制

MapReduce之CombineFileInputFormat自定义切片机制-04

Hadoop之 MapReduce （MapTask 和 ReduceTask 工作机制详解）

Hadoop-MapReduce-详细解析InputFormat工作机制，源码分析，切片机制-连载中

CombineTextInputFormat切片机制优化大量小文件

Hadoop FileInputFormat 默认切片机制

Hadoop-MapReduce-详细解析MapTask和ReduceTask工作机制-连载中

为什么要用MapReduce以及MapReduce的切片

maptask和reduceta的并行度

MapTask和ReduceTask运行机制（详细介绍）

Hadoop中MapTask的并行度的决定机制

MapReduce并行度机制

MapReduce源码调试job，maptask，shuffle，reducetask

MapReduce的ReduceTask执行机制

B05 - 051、Reducetask并行度机制

maptask的并行度

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)