【若泽大数据实战第十二天】MapReduce学习

1.MapReduce了解

MapReduce 分布式计算框架 
企业开发很少用不用,因为它要用java代码去写,很复杂很累赘 ,它的shuffle是基于磁盘的,很慢,而spark是基于内存的框架。
但是面试要用和学习其他组件参照的时候要用,因为它是第二个大数据开发的计算框架,

MapReduce是由两个组成,Map计算和Reduce计算

Map:映射

Reduce:归约

Map:
x --》(x,1)  key,value 键值对
y --》(y,1)
z --》(z,1)
x --》(x,1)

Reduce: 
x,2
y,1
z,1

相当于一个sql语句:select  name,sum(value) from xxx group by name

2.MapReduce on Yarn 架构(面试必问)

猜你喜欢

转载自blog.csdn.net/liweihope/article/details/88073653
今日推荐