MapReduce十步执行流程（详细介绍） - 代码天地

MapReduce十步执行流程（详细介绍）

其他 2020-03-10 11:27:10 阅读次数: 0

第一步：InputFormat

InputFormat 在HDFS文件系统中读取要进行计算的数据
输出给Split

第二步：Split

Split 将数据进行逻辑切分，切分成多个任务。
输出给RR

第三步：RR

RR 将切分后的数据转换成key value进行输出
key : 每一行行首字母的偏移量
value: 每一行数据
输出给Map

第四步：Map

接收一条一条的数据（有多少行数据Map运行多少次，输出的次数根据实际业务需求而定）
根域业务需求编写代码
Map的输出是 key value的 list
输出给Shuffle（partition）

---------------------------------------Map-------------------------------------------------------

第五步： partition

partition: 按照一定的规则对 **key value的 list进行分区
输出给Shuffle（sort）

扫描二维码关注公众号，回复： 9719458 查看本文章

第六步：Sort

Sort :对每个分区内的数据进行排序。
输出给Shuffle（Combiner）

第七步：Combiner

Combiner: 在Map端进行局部聚合（汇总）
目的是为了减少网络带宽的开销
输出给Shuffle（Group）

第八步：Group

Group: 将相同key的key提取出来作为唯一的key
将相同key对应的value提取出来组装成一个value 的List
输出给Shuffle（reduce）

------------------------------------Shuffle--------------------------------------------

第九步：reduce

reduce：根据业务需求对传入的数据进行汇总计算。
输出给Shuffle（outputFormat）

第十步：outputFormat
outputFormat:将最终的额结果写入HDFS

------------------------------------reduce--------------------------------------------

在这里插入图片描述

站内首发文章

程序人生哦

发布了26 篇原创文章 · 获赞 13 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44466534/article/details/103075167

MapReduce十步执行流程（详细介绍）

详细介绍Apk构建的流程

Django框架详细介绍---请求流程

mapreduce详细流程

linux开机的十步

MapReduce 流程介绍

JDK 1.8十大新特性详细介绍

Flink详细笔记(十) Flink的Time 和 Window 介绍

吃透Redis系列（十）：Redis内存模型详细介绍

吃透MySQL（十）：缓冲池(buffer pool)详细介绍

Sqoop详细介绍包括：sqoop命令，原理，流程

VPS挂机赚美刀详细介绍–Alexamaster操作流程

Linux系统启动流程和内核管理详细介绍

微信小程序登录授权详细流程介绍

传奇SF开服架设流程详细介绍：

AdminLTE的介绍与使用（详细流程）-----前端框架

详细介绍软件测试的具体流程是什么

微信小程序开发流程详细介绍

linux学习笔记：linux开机启动流程详细介绍

【Vue】详细介绍Vue-cli部署流程

SpringMVC基础入门及工作流程---全方面详细介绍

理解索引：MySQL执行计划详细介绍

吃透MySQL（七）：MySQL执行计划详细介绍

超详细的MES制造执行系统介绍——看板管理

超详细的MES制造执行系统介绍——物料管理

超详细的MES制造执行系统介绍——质量管理

超详细的MES制造执行系统介绍——Andon管理

超详细的MES制造执行系统介绍——设备管理

超详细的MES制造执行系统介绍——工艺管理

十步学习法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)