hadoop经典系列(七)shuffle中的排序

1.map写到buffer时候,预排序(为了后面的快排)
2.spill的时候二次快排
3.再根据partioner排序,每个partioner里根据key排序
4.在Map 任务完成前,所有的spill 文件将会被归并排序为一个索引文件和数据文件
5.  当所有的Map 输出都被拷贝后,Reduce 任务进入排序阶段(更恰当的说应该是归并阶段,因为排序在Map 端就已经完成),这个阶段会对所有的Map 输出进行归并排序,这个工作会重复多次才能完成
大概有5个排序



作者简介
昵称:澳洲鸟,猫头哥
姓名:朴海林
QQ:85977328
MSN:[email protected]
本文的研究,离不开《至高天》朋友们的支持
猫头哥:http://phl.iteye.com/
根根:http://blog.csdn.net/suileisl
芝麻的奋斗:http://sesame84.iteye.com/
wan560:http://blog.csdn.net/wan560/
terrily:http://terrily.iteye.com/

猜你喜欢

转载自phl.iteye.com/blog/1984015