MapReduce 的jion优化

1. Common/Shuffle/Reduce Join

链接发生在reduce 阶段

大表对大表(大表:数据存储在文件中;小表:数据存储在内存中)

2. Map Join

链接发生在mapTask

小表对大表

小表通过DistributedCache类加载到内存中

现在,设置:set hive.auto.convert.join=true;达到优化的目的

3.SMB Join(Sort-Merge-Bucket)

把相同的数据放在同一个分区

create table order(cid int, price float,quantity int) clustered by(cid) sorted by(cid)  into 32 Buckets;

猜你喜欢

转载自blog.csdn.net/u011500419/article/details/88750795
今日推荐