MapReduce执行过程中的数据流程： - 代码天地

MapReduce执行过程中的数据流程：

其他 2018-08-31 10:47:13 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weijianpeng2013_2015/article/details/71373815

1.预先加载本地的输入文件
2.经过MAP处理产生中间结果
3.经过shuffle将key相同的中间结果分配到同一个节点去处理
4.Reduce处理产生结果输出
5.将结果保存在hdfs上
这里写图片描述

MAP阶段所做工作：

在map阶段:
1.使用job.setINputFormatClass定义的InputFormat将输入的
数据集分割成小数据块splites;
2.同时InputFormat提供一个RecordReder的实现。默认的是TextInputFormat，
它提供的RecordReader会将文本的一行的偏移量（也就是行号）作为key，这一行的文本作为value。
3.调用自定义Map的map方法，将一个个键值对输入给自定义的Map的map方法；
4.按照自定义的Map的输出key类、输出value类生成一个List.

Partitioner阶段所做工作：

在map阶段的最后：
1.会先调用job.setPartitionerClass设置的类对这个List进行分区，每个分区映射到一个reducer；
2.每个分区内调用job.setSortComparatorClass设置的key比较函数类排序；
3.如果没有通过
job.setSortComparatorClass设置key比较函数类，则使用可以的实现的compareTo方法

Shuffle处理过程：

将每个分区根据一定的规则（默认是键相同），分发到reducer处理

Sort处理过程：

在reduce阶段，reducer接收到所有映射到这个reducer的map输出后：
1.调用job.setSortComparatorClass设置的key比较函数类对所有键值对排序；
2.然后开始构造一个key对应的value迭代器，这时就要用到分组，
使用job.setGroupingComparatorClass设置的分组函数类，
只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器中

Reduce处理过程：

最后就是进入Reducer的reduce方法，reduce方法的输入是所有的key和它的value迭代器，
在reduce中将key相同的迭代器中的value值累加，同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

这里写图片描述

猜你喜欢

转载自blog.csdn.net/weijianpeng2013_2015/article/details/71373815

MapReduce执行过程中的数据流程：

MapReduce对数据流的处理流程

文件上传接收过程中数据数据流的处理问题

MapReduce在yarn中的执行过程

MapReduce执行流程和Shuffle过程

hadoop之从数据流向角度分析MapReduce流程

MapReduce经典4幅图（数据流向图、word count过程图、shuffle工作流程图（map端、reduce端）、MapReduce原理图）

Hadoop中mapreduce中的shuffle执行流程

MapReduce数据流

一张图理解 ant-design-pro-master 登录过程中的数据流向

MySQL 存储过程中执行DDL

C++执行过程中的名词

存储过程中拼写sql并执行

spark中wordcount执行的数据流向

MapReduce(MR)框架里shuffer过程中Partition的使用

Scrapy中的数据流过程展示

flowable externalWorkerJob执行complete操作数据流程

大数据中HDFS、MapReduce、Hbase常见工作执行流程总结

MapReduce执行流程

MapReduce执行流程Shuffle

MapReduce的执行流程

mapreduce执行的大致流程

MapReduce执行流程详解

Mapreduce的执行流程思路

MapReduce执行流程解析

MapReduce On Yarn的执行流程

mapreduce数据流配置

MapReduce执行过程

MapReduce的原理及执行过程

scrapy数据流程

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)