Hadoop系列（六）Hadoop三大核心之MapReduce 基础 - 代码天地

Hadoop系列（六）Hadoop三大核心之MapReduce 基础

其他 2020-03-29 10:53:03 阅读次数: 0

文章目录

MapReduce背景
MapReduce是什么
MapReduce的架构简单介绍

MapReduce背景

在程序由单机版扩成分布式版时，会引入大量的复杂工作。为了提高开发效率，可以将分布式程序中的公共功能封装成框架，让开发人员可以将精力集中于业务逻辑。Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架。

MapReduce是什么

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用” 的核心框架。

核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。

MapReduce将整个并行计算过程抽象到两个函数：

Map（映射）：对一些独立元素组成的列表的每一个元素进行制定的操作，可以高度并行。

Reduce（归约）：归约过程，把若干组映射结果进行汇总并输出。

一个简单的MapReduce程序只需要指定Map()、reduce()、input和output，剩下的事情由框架完成。

基于MapReduce写出来的应用程序能够运行在大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce 作业*通常会把输入的数据集切分为若干独立的数据块，由 /map任务（task）/以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给/reduce任务/。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。

MapReduce的架构简单介绍

Input：输入文件的存储位置。可以是hdfs文件位置，也可以是本地文件位置

Map阶段:自己编写映射逻辑

Shuffle阶段:是我们不需要编写的模块，但却是十分关键的模块。Shuffle 阶段需要从所有 map主机上把相同的 key 的 key value对组合在一起，传给 reduce主机, 作为输入进入 reduce函数里。

Reduce阶段:自己编写合并逻辑

Final result: 最终结果存储在hdfs

MapReduce 更深层次分析后续讲解

发布了19 篇原创文章 · 获赞 11 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/im_xiao/article/details/105153355

Hadoop系列（六）Hadoop三大核心之MapReduce 基础

Hadoop系列（二）Hadoop三大核心之HDFS基础

Hadoop系列-MapReduce基础

hadoop基础之mapreduce

Hadoop之MapReduce基础

浅谈：Hadoop基础之MapReduce

hadoop基础概念之Hadoop核心组件

Hadoop系列（七）Hadoop三大核心之MapReduce-程序编写

hadoop之mapreduce详解（基础篇）

hadoop基础-MapReduce原理

Hadoop基础-Mapreduce介绍

Hadoop基础-MapReduce的排序

Hadoop基础---MapReduce实现

Hadoop系列－－Hadoop核心之MapReduce的原理

Hadoop大数据开发基础系列：三、Hadoop基础操作

Hadoop基础 - Hadoop核心组件之HDFS工作原理

Hadoop大数据开发基础系列：五、MapReduce进阶编程

Hadoop大数据开发基础系列：四、MapReduce初级编程

Hadoop基础-MapReduce的Join操作

HADOOP | MapReduce篇 (01) 基础

hadoop基础之初识Hadoop MapReduce架构

Hadoop系列-zookeeper基础

hadoop之hadoop基础介绍

Hadoop系列－－Hadoop核心之MapReduce作业的生命周期

Hadoop大数据开发基础系列：六、了解YARN

Hadoop三大组件之MapReduce

Hadoop之Storm基础

Hadoop之HDFS基础

Hadoop系列之-MapReduce

Hadoop系列（三）Hadoop三大核心之HDFS shell常用命令

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)