Mapreduce基本工作流程 - 代码天地

Mapreduce基本工作流程

其他 2020-03-11 10:48:11 阅读次数: 0

map 端从hdfs读入数据到完成映射到详细过程：

以用wordcount计算一个文本为例

读取数据之后在内存中的大体形式是：键值对

map task 要做排序（方便索引），并且会把结果写在本地磁盘上（而不是写入hdfs，以免占用大量资源），reduce直接通过yarn找到对应的map，从map的磁盘上读取结果进行reduce（聚合）,也会通过归并排序进行排序

reduce会把最终结果写入hdfs而不是磁盘，这样可以可靠的永久保存我们的结果

细化过程之后：

其中：

map通过关键字的哈希值求余进行分类，这里分为了三类，并且把相同的类交给同一个reduce处理，这样保证了不同的reduce task处理的数据不会有重复，最后每个ruduce计算出的结果也都是不重复的

Mew97

发布了9 篇原创文章 · 获赞 4 · 访问量 2821

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44129672/article/details/88634577

Mapreduce基本工作流程

MapReduce工作流程

mapreduce on yarn的工作流程

Mapreduce工作流程总结

MapReduce工作流程分析

MapReduce简述、工作流程

Yarn工作原理及MapReduce工作流程

MapReduce工作流程和工作原理

MapReduce 原理之工作流程

十二、MapReduce详细工作流程

MapReduce工作流程和原理

mapreduce job在yarn上的工作流程

MapReduce工作流程超详细解释

4 MapReduce 工作流程详解

MapReduce的详细工作流程

Yarn及MapReduce工作流程（总结版）

干货丨MapReduce的工作流程是怎样的？

图文详解 MapReduce 工作流程

Git基本工作流程

SecondaryNameNode的基本工作流程

Spark基本工作流程

git的基本工作流程

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

了解SpringMVC框架及基本工作流程

Git(一)：git基本的工作流程

Spring-BeanFactory基本工作流程

Git结构（即基本工作流程）

Web应用基本工作流程

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)