开发高效的hive程序,hive优化

给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。

ppt见附件。

分区裁剪、列裁剪
合理利用中间表,避免对一个表重复扫描
尽量避免笛卡尔积
合理使用 MapJoin
Join 代替 IN
合理使用 Union all
合理使用动态分区
数据倾斜

猜你喜欢

转载自superlxw1234.iteye.com/blog/1564456