MapReduce原理简介

其他 2019-04-15 19:10:55 阅读次数: 0

一、MapReduce是什么

MapReduce是一种分布式计算框架，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。主要用于搜索领域，解决海量数据的计算问题。
MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。

二、MapReduce做什么

MapReduce框架由Map和Reduce组成。
Map()负责把一个大的block块进行切片并计算。
Reduce() 负责把Map()切片的数据进行汇总、计算。

三、MapReduce怎么做

第一步对输入的数据进行切片，每个切片分配一个map()任务，map()对其中的数据进行计算，对每个数据用键值对的形式记录，然后输出到环形缓冲区（图中sort的位置）。
map（）中输出的数据在环形缓冲区内进行快排，每个环形缓冲区默认大小100M，当数据达到80M时（默认），把数据输出到磁盘上。形成很多个内部有序整体无序的小文件。
框架把磁盘中的小文件传到Reduce()中来，然后进行归并排序，最终输出。

四、要点是什么

MapReduce将输入的数据进行逻辑切片，一片对应一个Map任务
Map以并行的方式处理切片
框架对Map输出进行排序，然后发给Reduce，map的计算是计算向数据移动，即block在哪，就把map的jar包发到哪。
Reduce从Map中拉取数据的过程称为洗牌。
MapReduce的输入输出数据处于同一个文件系统（HDFS）
框架负责任务调度、任务监控、失败任务的重新执行
框架会对键和值进行序列化，因此键和值需要实现writable接口，框架会对键排序，因此必须实现writableComparable接口。

五、MapReduce原语

MapReduce原语：“相同”key的键值对为一组调用一次Reduce方法，方法内迭代这组数据进行计算。

猜你喜欢

转载自blog.csdn.net/weixin_43462670/article/details/89224775

MapReduce工作原理简介

MapReduce原理简介

MapReduce的原理及执行过程 MapReduce简介

mapreduce简介

MapReduce 简介

MapReduce 原理

MapReduce的原理

mapreduce原理

MapReduce架构简介

MapReduce简介和wordcount

MongoDB MapReduce用法简介

Hadoop之MapReduce简介

1、MapReduce理论简介

Hadoop MapReduce简介

7.1 MapReduce简介

MapReduce简介及优缺点

MapReduce原理与设计思想

MapReduce工作原理

MapReduce 实验 (一) 原理

MapReduce的架构及原理

hadoop (mapreduce运行原理)

MapReduce原理浅析（转）

hadoop基础-MapReduce原理

mapreduce运行原理及YARN

MapReduce的工作原理-笔记

hadoop mapreduce 原理

MapReduce原理与实现

MapReduce工作原理详解

MapReduce的基本工作原理

MapReduce 工作原理

今日推荐

周排行

Grayscale的报告显示，机构投资者接受比特币

任意角度的场景文本检测论文简单总结

努力学习的意义

蒟蒻 Wendigo 表情包

Ubuntu 14.04 Install Sublime Text 3

守卫

python3中request.urlopen()和requests.get()方法的区别

花点时间顺顺Git（下）

docker安装ngnix进行挂载

spring boot 2 统一异常处理

每日归档

更多

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)