运行一个 hadoop 任务的流程是什么样的(大数据开发面试)


1、 导入数据对需分析的数据进行分片,片的大小默认与 datanode 块大小相同。

2、 每个数据片由一个 mapper 进行分析,mapper 按照需求将数据拆分为一个个 keyvalue 格式的数据。

3、 每个 key-value 数据调用一次 map 方法,对数据进行相应的处理后输出。

4、 将输出的数据复制到对应的分区,默认一个键一个区,相同键放在同一个区中。

5、 将输出的数据进行合并为 key-Iterable 格式。

6、 每个分区有一个 reduce,每个 reduce 将同一个分区的数据进行合并处理为自己所需的数据格式。

7、 将数据输出至 hdfs。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81047787
今日推荐