MapReduce简述、工作流程 - 代码天地

MapReduce简述、工作流程

企业开发 2023-09-15 19:48:09 阅读次数: 0

MR编程模型之执行步骤：

　　1、准备map处理的输入数据

　　2、mapper处理

　　3、Shuffle

　　4、Reduce处理

　　5、结果输出

(input)<k1,v1> -> map -><k2,v2> -> combine -> <k2,v2> ->reduce -> <k3,v3>(output)

处理流程：

　　

流程：

　　1、输入文本信息，由InputFormat -> FileInputFormat -> TextInputFormat，通过getSplits方法获得Split数组，然后在用getRecordReader 方法对Split做处理，每读一行交给一个map处理

　　2、每个节点上的所有map，交由该节点上的Partitioner处理（Shuffling的过程），按key将map放在其他节点上去还是继续在该节点下处理

　　3、排序

　　4、结果交由reduce处理

　　5、处理完成后由 OutputFormat ->FileOutputFormat ->TextOutputFormat 写到本地或Hadoop上

Split：MR处理的的数据块，MR中最小的计算单元，默认是与HDFS中的Block（HDFS中的最小存储单元，默认128M）是一一对应的，也可以手工设置（不建议修改）

InputFormat：将输入的数据进行分片（Split） InputSplit[] getSplits(JobConf var1, int var2)

　　TextInputFormat：用来处理文本格式的数据

OutputFormat：输出

上图图解：

　　一般来说，一个Split对应一个Block，但上图是一个设置过后的。

　　一个file文件被分成了n个Block，对应着就是2n个Split，经过InputFormat处理后，每个Split交由一个Mapper处理，通过Shuffling的分组和排序后产生多个Reducer，每个Reducer就会产生一个文件

MapReduce 1.x的架构：一个JobTracker+多个taskTracker

　　　　JobTracker:负责资源管理和作业调度

　　　　TrakTracker：定期向JobTracker汇报节点的健康、资源、作业情况，接收JT的命令，比如启动/杀死任务

MapReduce 2.x：

　　

猜你喜欢

转载自blog.csdn.net/asd54090/article/details/80920592

MapReduce简述、工作流程

案例简述MapReduce与HDFS协同工作流程

MapReduce工作流程

简述struts的工作流程

mapreduce on yarn的工作流程

Mapreduce工作流程总结

MapReduce工作流程分析

Mapreduce基本工作流程

Yarn工作原理及MapReduce工作流程

MapReduce工作流程和工作原理

简述Hyperledger Fabric的工作流程

MapReduce 原理之工作流程

十二、MapReduce详细工作流程

MapReduce工作流程和原理

mapreduce job在yarn上的工作流程

MapReduce工作流程超详细解释

4 MapReduce 工作流程详解

MapReduce的详细工作流程

Yarn及MapReduce工作流程（总结版）

干货丨MapReduce的工作流程是怎样的？

图文详解 MapReduce 工作流程

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

MapReduce2提交到yarn上工作流程

MapReduce job提交到Yarn的工作流程

大数据笔记 3--MapReduce工作流程

最简单、详细的MapReduce工作流程（个人整理）

【Hadoop学习之MapReduce】_19MR工作流程

请描述一下MapReduce的工作流程。

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)