2.MR基础_工作原理 - 代码天地

2.MR基础_工作原理

其他 2018-10-24 03:11:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_15014327/article/details/83033408

一.MapReduce运行机制

Client：提交MapReduce作业
ResourceManager：负责集群资源的统一管理和调度
NodeManager：它主要负责自己本身节点的资源管理和使用，以及定时向RM汇报本节点的资源使用情况
ApplicationMaster：主要负责应用程序的管理
HDFS：在其他角色间共享数据文件

二.MapReduce框架

MapReduce作业通常将输入数据集拆分为独立的块，这些块由map任务并行处理。框架对map的输出进行排序，然后输入到reduce任务。通常，作业的输入和输出都存储在文件系统中。该框架负责调度任务，监视它们并重新执行失败的任务。通常，计算节点和存储节点是相同的，即MapReduce框架和Hadoop分布式文件系统在同一组节点上运行。此配置允许框架有效地在已存在数据的节点上调度任务，从而在集群中产生非常高的聚合带宽。

1.MapReduce输入输出

MapReduce框架将输入作为一组<key，value>并生成一组<key，value>作为输出。key和value可以是不同的数据类型。该key和value的类必须由框架序列化，因此需要实现Writable接口。此外，key类必须实现WritableComparable接口以便于按框架进行排序。MapReduce作业的输入和输出类型：

input <k1,v1> --> map --> <k2，v2> --> combine --> <k2,v2> --> reduce --> <k3,v3> output

2.MapReduce的处理流程

以WordCount为例：

MapReduce Job先将数据集进行切片，之后每个片分发给一个Mapper Task执行。
在Mapper Task执行过程中，根据Partition规则进行分区，然后在分区内排序。
之后，将多个Mapper Task中相同Partition的数据Copy到同一个Reducer所在的节点上，进行合并和排序。
最后，在Reducer Task中统计出单词的词频，并输出到输出文件中。

猜你喜欢

转载自blog.csdn.net/qq_15014327/article/details/83033408

2.MR基础_工作原理

2.HDFS基础_工作原理

2.Yarn基础_工作原理

MapReduce基础原理、MR与MPP区别

OSPFv2基础02_工作原理

Struts 2 工作原理

Struts 2的工作原理

mr执行原理

理解MapReduce原理_mr

Hadoop中MR阶段MapTask和ReduceTask工作过程（详细原理）。

Android View 工作原理基础

Suruts2的工作原理

struts2工作原理

Struts2 工作原理

Struts2的工作原理

struts2 的工作原理

strust2工作原理

selenium2工作原理

structs2工作原理

WebGL2 工作原理

【模拟电子技术基础】第2章基本放大电路（概念、工作原理与分析方法）

大数据-MR的运行原理

Hadoop基础（九） --- Ubuntu和Eclipse运行MR作业，win安装hadoop，Ant脚本实现快速打包，MR底层通信原理分析流程图

[Java基础]--Java GC工作原理

camera理论基础和工作原理

zabbix监控的基础概念、工作原理及架构

Spark工作原理，从最基础的开始了解

web工作原理及http协议（基础篇）

详谈-MPLS的基础和工作原理

spark 基础一：基本工作原理与RDD

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)