hadoop 札记

一、一个文件至少有一个split。一个block 对应1个及以上split。一个split不能对应多

个block,会引起网络传输。

二、如果要整个map的结果一次性输出。那么,输出代码写在 cleanup() 函数中。

三、shuffle

        排序  分组

map输出后需要做排序的目的是为分组作第一次准备

排序要实现comparable<T>

排序由MapReduce框架根据key compareTo 自动排序

map输出后排序

shuffle排序只能按key排序  有时候value 可以使  null

汇总多个map之后 分组之前的排序,分组之前可以手工干预。

猜你喜欢

转载自blog.csdn.net/u011500419/article/details/84324739