MapReduce简单入门基础了解 - 代码天地

MapReduce简单入门基础了解

其他 2018-11-10 15:28:10 阅读次数: 0

版权声明：有一种生活不去经历不知其中艰辛,有一种艰辛不去体会,不会知道其中快乐,有一种快乐,没有拥有不知其中纯粹 https://blog.csdn.net/wwwzydcom/article/details/83796871

MapReduce定义

MapReduce是一个分布式运算程序的编程框架,用户开发"基于hadoop的数据分析应用"的核心框架
MapReduce核心是将用户编写的业务逻辑代码和自带默认组件整合一个完整的分布式运算程序,并发运作在一个hadoop集群上

优点

易于编程 :简单实现一些接口完成一个分布式程序,这个程序分布大量廉价的PC机器上,和一个单线程程序一样
扩展性好:计算资源不足时,增加机器即可
高容错性:一台机器挂了,计算任务转移到另外一个节点上运行,不至于任务运行失败,整个过程是hadoop内部完成,不要人工参与
适合PB级别的数据离线处理:不适合在线处理

缺点

实时计算 :无法像mysql一样毫秒级别返回结果
流式运算:流失计算的输入数据是动态的,但是MapReduce输入数据集是静态的,
设计特点决定是静态的
DAG(有向图)计算:当多个程序有依赖关系,后一个程序的输入为前一个程序的输出,MR程序不是不能做,每个MR程序输出结果写入磁盘,会造成大量磁盘IO,导致性能低下

MapReduce核心思想:
在这里插入图片描述

分布式的运算程序一般需要至少两个阶段
第一阶段:maptask并发实例:完全并行运行,互不相干
第二阶段:reduce task并发实例,互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出
MapReduce编程模型只能包含一个map阶段和一个reduce阶段,用户业务逻辑复杂,只能多个MapReduce程序,串行运行

MapReduce进程

一个完整的MapReduce程序在分布式时三类实例进程
(1) MrAppMaster:负责整个程序的过程调度以及状态协调
(2) MapTask:负责map阶段的整个数据处理流程
(3)ReduceTask:负责reduce阶段的整个数据处理流程

MapReduce编程规范

(1) Mapper阶段

	(1)用户自定义的Mapper要继承自己的父类
	(2)Mapper的输入数据是KV对的形式(KV的类型可以自定义)
	(3)Mapper中的业务逻辑写在map()方法中
	(4)Mapper的输出数据是KV对的形式(KV的类型自定义)
	(5)map()方法(maptask进程)对每一个<K,V>调用一次

(2)Reducer阶段

	(1)用户自定义的Reducer要继承自己的父类
	(2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
	(3)Reducer的业务逻辑写在reduce()方法中
	(4)Reducetask进程对每一组相同的k的<k,v>组调用一次reduce()方法中

(3)Driver阶段(提交运行mr程序的客户端)

	整个程序需要一个Drvier来进行提交,提交是描述了各种必要信息的job对象

猜你喜欢

转载自blog.csdn.net/wwwzydcom/article/details/83796871

MapReduce简单入门基础了解

MapReduce入门了解

tornado基础入门（一）——简单了解tornado

MapReduce简单入门 wordcount

MapReduce 基础入门

MapReduce基础入门（二）

MapReduce基础入门（一）

hadoop入门--简单的MapReduce案例

MapReduce简单介绍及入门程序

Java了解与简单入门

Java简单入门了解

java简单基础了解

Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码

liunx基础入门了解

了解TiDB基础入门

【elasticsearch】基础入门了解

大数据（八）：MapReduce入门与简单实现

【Hadoop离线基础总结】MapReduce入门

JavaScript 基础（一）【简单了解】

Github基础----简单了解Git

Python入门--------print基础了解

软件测试入门篇 JUnit简单了解+基础知识+注解说明(重点)

简单的MapReduce

MapReduce入门

MapReduce的入门

MySQL简单的基础入门

UniApp基础：简单入门

Linux简单了解入门学习一

简单入门HTML，大致可以了解了

了解MapReduce_2

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)