hive中 bucket mapjoin 与 SMB join(Sort-Merge-Bucket)区别

1 bucket mapjoin

1.1 条件

1) set hive.optimize.bucketmapjoin = true;
2) 一个表的bucket数是另一个表bucket数的整数倍
3) bucket列 == join列
4) 必须是应用在map join的场景中

1.2 注意

1)如果表不是bucket的,只是做普通join。

2 SMB join (针对bucket mapjoin 的一种优化)

2.1 条件

1)
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
2) 小表的bucket数=大表bucket数
3) Bucket 列 == Join 列 == sort 列
4) 必须是应用在bucket mapjoin 的场景中

2.2 注意

hive并不检查两个join的表是否已经做好bucket且sorted,需要用户自己去保证join的表,否则可能数据不正确。有两个办法

1)hive.enforce.sorting 设置为true。
2)手动生成符合条件的数据,通过在sql中用distributed c1 sort by c1 或者 cluster by c1
表创建时必须是CLUSTERED且SORTED,如下
create table test_smb_2(mid string,age_id string)
CLUSTERED BY(mid) SORTED BY(mid) INTO 500 BUCKETS;

参考自
https://stackoverflow.com/questions/20199077/hive-efficient-join-of-two-tables
https://cwiki.apache.org/confluence/download/attachments/27362054/Hive+Summit+2011-join.pdf

猜你喜欢

转载自blog.csdn.net/wisgood/article/details/80068834
今日推荐