distribute by 和 partitioned by 区别

distribute by

DISTRIBUTE BY是控制map的输出在reducer是如何划分的
DISTRIBUTE BY是控制在map端如何拆分数据给reduce端的。
DISTRIBUTE BY可以控制某个特定行应该到哪个reducer。
distribute by 是根据has取模的结果来分区
````
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210331171748267.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pva2VydGlnZXI=,size_16,color_FFFFFF,t_70)

如果有order ,顺序如下

在这里插入图片描述

cluster by

在这里插入图片描述

partition by 根据字段名分区的

基本与上图一致

猜你喜欢

转载自blog.csdn.net/jokertiger/article/details/115352558