对mapreduce分布式计算框架原理,进行完整流程分析

本文中大致的对mapreduce进行完整流程分析,map、reduce端的分析。

一、 MapReduce 简介

MapReduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。

二、 设计思想

hadoop 文件系统 ,提供了一个分布式的文件系统,但是hadoop文件系统读写的操作都涉及到大量的网络的操作,并不能很好的完成实时性比较强的任务。
但是hadoop可以给上面的应用提供一个很好的支持。比如hadoop文件系统上面可以运行mapreduce。mapreduce是一个计算的框架,mapreduce是一个分布式的计算框架,这样mapreduce利用分布式的文件系统,将不同的机器上完成不同的计算,然后就计算结果返回。这样很好的利用了分布式的文件系统。
数据分布式的存储,然后计算的时候,分布式的计算,然后将结果返回。这样的好处就是不会涉及到大量的网络传输数据

三、原理解析

1.MapReduce完整运行流程

(1)在客户端启动一个作业。
(2) 向JobTracker请求一个Job ID。

猜你喜欢

转载自blog.csdn.net/as4589sd/article/details/104151004