【MapReduce】1.MapReduce概述 - 代码天地

【MapReduce】1.MapReduce概述

其他 2019-03-24 09:11:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sdut406/article/details/88769691

一. MapReduce概念

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在hadoop集群上。

二. 为什么要用MapReduce

海量数据在单机上处理受硬件资源限制
一旦将单机版程序扩展到集群来分布式运行，将极大地增加程序的复杂度和开发难度
使用mapreduce，开发人员可以将大部分工作集中在业务逻辑的开发上，而将分布式计算的复杂性交给框架chuli
mapreduce分布式方案的考虑问题
1. 运算逻辑要不要先分后合？
2. 程序如何分配运算任务？
3. 两阶段的程序如何启动？如何协调？
4. 整个程序运行过程中的监控？容错？重试？
  分布式方案需要考虑很多问题，但是我们可以将分布式程序中的公共功能封装成框架，让开发人员集中精力在业务逻辑上。而mapreduce就是这样的框架

MapReduce核心编程思想

分布式的运算程序往往需要分成至少2个阶段
第一个阶段的maptask并发实例，完全并行运行，互不相干
第二个阶段的reducetask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出
MapReduce编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那就只能用多个mapreduce程序，串行执行

MrAppMaster 负责整个程序的过程调度及状态协调

MapReduce 进程

一个完整的mapreduce程序在分布式运行时有三类实例进程

MrAppMaster ：负责整个程序的过程调度以及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

MapReduce编程规范

程序分为三个部分：Mapper，Reducer，Driver（提交运行的mr程序给客户端）

Mapper阶段
1. 用户自定义的Mapper要继承自己的父类
2. Mappper的输入数据是KV对的形式（KV的类型可自定义）
3. Mapper中的业务逻辑写在map（）方法中
4. Mapper的输出数据是KV对的形式（KV的类型可自定义）
5. map（）方法（masptask进程）对每一个<K,V>调用一次
Reducer阶段
1. 用户自定义的Reducer要继承自己的父类
2. Reducer的输入数据类型对象Mapper的输出数据类型，也是KV对
3. Reducer的业务逻辑写在reduce（）方法中
4. Reducetask进程对每一组相同K的<K,V>组调用一次reduce（）方法
Driver阶段
整个程序需要一个Driver来进行提交，提交的是一个描述了各种必要信息的job对象

猜你喜欢

转载自blog.csdn.net/sdut406/article/details/88769691

1.MapReduce概述

【MapReduce】1.MapReduce概述

[1] - Mapreduce概述

MapReduce概述

MapReduce 概述

大数据技术之Hadoop之MapReduce（1）——MapReduce概述

Hadoop MapReduce体系概述

Hadoop之MapReduce概述

MapReduce排序-概述

hadoop-MapReduce概述

MapReduce

Hadoop+MapReduce 入门概述

Mapreduce：概述 + 实例：WordCount + yarn

Mapreduce概述和WordCount程序

Clsssic MapReduce (MapReduce 1) - Job initialization

Clsssic MapReduce (MapReduce 1) - Job submission

Classic MapReduce (MapReduce1) Memory

Clsssic MapReduce (MapReduce 1) - Job assignment

Clsssic MapReduce (MapReduce 1) - Task execution

MapReduce1与Yarn(MapReduce2)

MapReduce快速入门系列(1) | 什么是MapReduce

应用MapReduce(1)

MapReduce优化_1

1、MapReduce理论简介

MapReduce项目实战1

Mapreduce基础1

MapReduce学习笔记(1)

spark1-MapReduce

mapreduce概述 ------- 快速入门篇

大数据学习路线之mapreduce概述

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)