Hadoop深入学习：Map Task和Reduce Task的执行流程 - 代码天地

Hadoop深入学习：Map Task和Reduce Task的执行流程

企业开发 2018-05-13 18:24:35 阅读次数: 0

本节我们主要看一下Map Task和Reduce Task的执行流程：

        好了，接下来我们再看看Map Task和Reduce Task的一个完整的执行流程：
        1）、TaskNode节点启动分配JobTracker个Map Task任务，启用InputFormat对象(具体为RecordReader)读取分配给本节点split分片，将每一行的数据读取成key/value键值对；
        2）、mapper程序的map()函数会接收key/value键值对的数据，做逻辑处理，然后将之输出；
        3）、(开始MapReduce的shuffle过程，该过程的性能的好坏可以直接决定MapReduce的性能。)mapper程序会将经处理过的key/value数据先加入该Task的环形的内存缓冲区，直到达到缓存达到阀值，然后会将数据spill到linux的本地磁盘上(注意，这些中间数据不会被保存到HDFS)，生成一个磁盘文件；
        4）、mapper处理玩自己分片的数据后，会将磁盘上的所有spill文件合并；
        5）、当一个Map Task任务处理完后，TaskTracker节点会告诉JobTracker节点任务执行完毕并等待新的任务，然后JobTracker会告知reducer程序，区获取属于reducer自己的数据；
        (注：第3 - 5步是Map断的shuffle阶段。)
        6）、reducer通过多线程(默认为5个copy线程)开始到已执行完成的mapper节点上copy属于自己的partition数据；
        7）、reducer会先将copy的数据先放在本机的内存缓存中，合并拷贝数据，当缓存中放不下copy数据时，会将内丛中的的数据刷新到磁盘上，数据copy完成后，会将虽有数据合并成一个大文件，数据格式由原来的<key,value>变成<key,value list>；
        8）、将合并后的文件排序；
        (注：第6 - 8步是Map断的shuffle阶段。)
        9）、接下来reducer开始执行业务逻辑处理的reduce()方法，并将数据最终输出到HDFS上。
        10）、所有的Task都执行完成后，整个处理过程完成。

猜你喜欢

转载自flyingdutchman.iteye.com/blog/1876189

Hadoop深入学习：Map Task和Reduce Task的执行流程

Map Task 与 Reduce Task

MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

[spark] Task执行流程

Hadoop深入学习：再谈MapReduce作业提交和执行

MAP/REDUCE TASK作业状态转移图

Hadoop深入学习：Reduce组件详解

Map/Reduce执行流程

Hadoop Map/Reduce执行流程详解

Hadoop深入学习：MapReduce作业的提交流程和作业的生命周期

Hadoop深入学习：HDFS主要流程——SNN合并fsimage和编辑日志

Hadoop深入学习：HDFS主要流程——NameNode节点上的文件和目录操作

Map/Reduce Task JVM 堆大小设置优化

Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError:

Map和Reduce的执行过程

Hadoop Map/Reduce执行全流程关键代码

hadoop-map-reduce执行流程调研报告

spark 源码分析之二十一 -- Task的执行流程

Spring任务执行和调度task:scheduler与task:executor的配置

Hadoop深入学习：HDFS主要流程——写文件

Hadoop深入学习：HDFS主要流程——读数据

Hadoop深入学习：解析HDFS的写文件流程

Hadoop基础---MapReduce程序实现自定义分组（实现reduce task并发）

Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1

Hadoop深入学习：MapReduce Job中的Shuffle和sort

spring task 执行多次

Task的执行过程分析

Task执行多次

spark executor task执行

Task

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)