深入理解hadoop值MapReduce(2)

1.MapReduce编程模型概述

  MapReduce编程模型给出了分布式的编程方法,总共分为5个步骤。分为这5个步骤的优点:组件化和并行化

    (1)迭代。遍历输入数据,并将其解析成key/value键值对

    (2)将输入的key/value对映射(map)成另外一些key/value对

    (3)依据key对中间数据进行分组(grouping)

    (4)以组为单位对数据进行规约(reduce)

    (5)迭代。将最终产生的数据保存到输出文件中

2.MapReduce编程接口体系结构  

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/9650754.html