MapReduce框架和操作流程

其他 2018-10-12 08:49:48 阅读次数: 0

目录

一、MapReduce概念理解

1. Why MapReduce?

2. MapReduce的思想：分而治之(Divide and Conquer)

3. MapReduce的特性

二、MapReduce的核心组件

三、Map/Reduce框架

四、MapReduce具体操作流程（重点！）

1. Map/Reduce的执行流程（1.0版本）

2. Map/Reduce的执行流程（2.0版本）

3. Map/Reduce和Yarn

4. Shuffle（重点）

五、Map/Reduce函数的书写

一、MapReduce概念理解

MapReduce是一种由Google提出的分布式计算模型，主要用于搜索领域，解决海量数据的计算问题。

MapReduce由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。

1. Why MapReduce?

海量数据在单机上处理因为硬件资源限制，无法胜任，而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度，引入MapReduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理。

解释：

访问：交互型，例如MySQL，hive；批处理，流式数据，spark会解决交互型的问题。
结构：动态模式，第一条记录3个字段，第二条记录可以5个字段。
伸缩性：处理机器变成2倍，处理能力变成2倍。

2. MapReduce的思想：分而治之(Divide and Conquer)

MapReduce的操作分为5个步骤：

Input → Splitting → Mapping → Shuffling → Reducing

说明：MapReduce的执行过程中需要对数据进行拆分，而Hadoop在存储的过程中已经将数据实现了拆分存储。

3. MapReduce的特性

自动实现分布式并行计算
容错
提供状态监控工具
模型抽象简介，程序员易用

二、MapReduce的核心组件

三、Map/Reduce框架

说明：

一个Map/Reduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式执行数据处理过程。
框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统（HDFS）。

四、MapReduce具体操作流程（重点！）

1. Map/Reduce的执行流程（1.0版本）

2. Map/Reduce的执行流程（2.0版本）

3. Map/Reduce和Yarn

4. Shuffle（重点）

五、Map/Reduce函数的书写

例子：wordcount

map：输入，<4, "hello hadoop">，key为句子的位置，value为句子。输出，List(<"hello", 1>, <"world", 1>)。
reduce：输入，<"hello", [2, 3, 4, 1]>。输出，<"hello", 10>。

猜你喜欢

转载自blog.csdn.net/qq_25024883/article/details/82995823

MapReduce框架和操作流程

MapReduce执行框架的组件和执行流程

Hadoop-Mapreduce的框架组成和运行流程

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

三-中下, 大数据基础架构Hadoop- MapReduce框架原理和工作流程剖析

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

MapReduce工作流程和原理

MapReduce和yarn的job流程图

MapReduce执行流程和Shuffle过程

MapReduce工作流程和工作原理

MapReduce的流程

MapReduce流程

HBase和MapReduce框架之TableMapReduceUtil类

MapReduce的构思和框架结构

大数据-Hadoop生态(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

mapTask和ReduceTask工作机制以及mapreduce完整流程

scrapy框架的概念和流程

MapReduce快速入门系列(5) | MapReduce任务流程和shuffle机制的简单解析

MapReduce程序运行流程

MapReduce的运行流程

MapReduce执行流程

mapreduce详细流程

MapReduce流程分析

MapReduce运行流程分析

MapReduce执行流程Shuffle

hadoop_MapReduce_流程

MapReduce的执行流程

Hadoop Mapreduce运行流程

mapreduce执行的大致流程

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)