给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。
ppt见附件。
•
分区裁剪、列裁剪
•
合理利用中间表,避免对一个表重复扫描
•
尽量避免笛卡尔积
•
合理使用
MapJoin
•
用
Join
代替
IN
•
合理使用
Union all
•
合理使用动态分区
•
数据倾斜