1.MapReduce了解
MapReduce 分布式计算框架
企业开发很少用不用,因为它要用java代码去写,很复杂很累赘 ,它的shuffle是基于磁盘的,很慢,而spark是基于内存的框架。
但是面试要用和学习其他组件参照的时候要用,因为它是第二个大数据开发的计算框架,
MapReduce是由两个组成,Map计算和Reduce计算
Map:映射
Reduce:归约
Map:
x --》(x,1) key,value 键值对
y --》(y,1)
z --》(z,1)
x --》(x,1)
Reduce:
x,2
y,1
z,1
相当于一个sql语句:select name,sum(value) from xxx group by name
2.MapReduce on Yarn 架构(面试必问)