spark的分区器hashpartitioner、RangePartitioner,分布式排序原理

spark大多数算子使用的都是默认分区器HashPartitioner,HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中,这样能较为平衡的分配数据到partition。
RangePartitioner:
它是在排序算子中会用到的分区器,比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的range里的key分布均匀。
sortBykey作为spark中常用的分布式排序算子,使用的就是RangePartitioner,通过切分range,各partitioner之间是有序的,各个partition内部再进行排序,从而达到了整体数据的有序性。
如下图:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_39719415/article/details/107844410
今日推荐