Hadoop的MapReduce的工作原理

其他 2020-01-22 10:33:09 阅读次数: 0

MapReduce是一种编程模型，用于大规模数据的并行运算。本文分析Hadoop中的MapReduce的工作原理。
MapReduce分为两个阶段：

Map阶段
Reduce阶段

现在以下面原始数据为例，解析MapReduce的运行流程

Welcome to Hadoop Class Hadoop Hadoop
Hadoop is good
Hadoop is bad

Wordcount完整的处理逻辑如下图所示：

第一层 Input
- 输入源
第二层 Input Splits
- 字符串分割，此时数据还在内存中
第三层 Mapping
- Mapper将数据转化为key->vale的形式，输出结果暂时会放在一个环形内存缓冲区中，内存溢出的时候会写入本地文件系统
第四层，combine
- Mapper将数据写入磁盘前，会执行sort和combine操作，为了减少写入磁盘的数据和方便reducer排序
第五层 Shuffling
- 将分区的数据拷贝给对应的reduce任务
第六层 Reducer
- 接收到数据以后，同样对数据进行排序和合并操作，最后再写入磁盘
第七层 Output

map->combine->reduce->output

分区相关

默认的分区方式是按key的hash值与int的最大值位（与）运算除以reduce数量的余数来分的

  public int getPartition(K key, V value,int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

我们假设reduce的分区数量是4，则各个字段reduce分区如下

Welcome 2
to 3
Hadoop 3
Class 0
is 2
good 1
bad 1

所以Mapper任务会将【Class】发送到Reduce-0任务，【good、bad】发送到Reduce-1任务，【is、Welcome】发送到Reduce-2任务，【Hadoop、to】发送到Reduce-3任务。当然我们也可以自定义分区方式。

参考网址：
https://www.guru99.com/introduction-to-mapreduce.html
https://blog.csdn.net/Gamer_gyt/article/details/47339755

发布了9 篇原创文章 · 获赞 1 · 访问量 3402

私信关注

猜你喜欢

转载自blog.csdn.net/y1006597541/article/details/103423399

Hadoop的MapReduce的工作原理

Hadoop之MapReduce工作原理

【hadoop】细读MapReduce的工作原理

Hadoop-MapReduce的工作原理

Hadoop_MapReduce工作原理

MapReduce工作原理--Hadoop2.6

Hadoop2.6 ---- MapReduce工作原理

Hadoop_MapReduce_Shuffle工作原理

hadoop学习笔记（十）：MapReduce工作原理（重点）

Hadoop2.6（新版本）----MapReduce工作原理

Hadoop基础-MapReduce的工作原理第二弹

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

Hadoop MapReduce工作机制

Hadoop MapReduce 的工作机制

【Hadoop】：MapReduce的工作机制

Hadoop Mapreduce 工作机制

hadoop (mapreduce运行原理)

hadoop基础-MapReduce原理

hadoop mapreduce 原理

Hadoop 之 MapReduce原理

Hadoop MapReduce原理及实例

Hadoop Mapreduce原理

Hadoop | MapReduce 原理分析

Hadoop：MapReduce框架原理

【Hadoop】MapReduce 原理

MapReduce工作原理

MapReduce工作原理简介

MapReduce的工作原理-笔记

MapReduce工作原理详解

MapReduce的基本工作原理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)