【十八掌●武功篇】第十掌：HiveSQL中分区筛选条件怎么写效率才最高 - 代码天地

【十八掌●武功篇】第十掌：HiveSQL中分区筛选条件怎么写效率才最高

其他 2020-01-11 10:23:37 阅读次数: 0

在写Hive SQL时，当遇到两个分区表a 和 b 相Join的时候，分区筛选条件怎么写效率才高呢？

有下面三种书写方式，下面就根据三个语句的执行计划分析一下，看种写法的执行效率会更高。

1、将分区筛选条件放入where中

select * from his h
left join s_test s on h.ID_1=s.ID_1
where h.dt='2018-05-07' and s.dt='2018-05-07';

点击查看第一种写法的执行计划

这种写法的执行计划，只有第一个表h在map端进行了分区字段筛选，第二个表s没有在map端进行分区筛选，而是到了reduce端才进行分区筛选，那么第二个表扫描的是所有分区的数据，并且无用的分区数据参与了计算和网络传输，明显效率非常低。

filterExpr: (dt = ‘2018-05-07’) (type: boolean)

2、将分区筛选放入on中

select * from his h
left join s_test s 
on h.ID_1=s.ID_1 and h.dt='2018-05-07' and s.dt='2018-05-07';

点击查看第二种写法的执行计划

通过查询执行计划，发现这种将dt筛选放入on后面的方式，只有第二个表s在map端进行了分区筛选，第一个表而是在reduce里进行的分区筛选，效率也非常低。

3、先根据分区筛选两个表，然后再join

select * from 
  (
    select * from his h where h.dt='2018-05-07'
  )a 
left join 
  (
    select * from s_test s where s.dt='2018-05-07'
  ) b
on a.ID_1=b.ID_1

点击查看第三种写法的执行计划

第三种方式是两个表分别在一个子查询中先进行分区筛选，然后再进行关联操作。通过查看执行计划，可以发现两个表都在map阶段进行了分区筛选，这样就能尽早地减少无用数据，效率最高。

4、遗留的疑惑

为什么在第一种写法中：

where h.dt='2018-05-07' and s.dt='2018-05-07';

只有h.dt在map阶段筛选了，而s.dt没有在map端进行筛选呢？

而第二种写法中：

on h.ID_1=s.ID_1 and h.dt='2018-05-07' and s.dt='2018-05-07';

反倒是s.dt在map阶段筛选了，h.dt没有进行筛选？

鸣宇淳博客专家

发布了74 篇原创文章 · 获赞 74 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/chybin500/article/details/80424638

【十八掌●武功篇】第十掌：HiveSQL中分区筛选条件怎么写效率才最高

【十八掌●武功篇】第十掌：参数mapreduce.job.reduce.slowstart.completedmaps

【十八掌●武功篇】第十掌：Hive中的Grouping Sets

【十八掌●武功篇】第十掌：根据一个错误探究MapJoin

【十八掌●武功篇】第十六掌：Spark之RDD简介

【十八掌●武功篇】第十六掌：Spark之Scala语法快速概览

【十八掌●武功篇】第十一掌：HUE简介、基本安装配置

【十八掌●武功篇】第七掌：MapReduce之倒排索引

【十八掌●武功篇】第七掌：MapReduce之group

【十八掌●武功篇】第七掌：MapReduce之单元测试

【十八掌●武功篇】第七掌：MapReduce之计数器

【十八掌●武功篇】第七掌：MapReduce之join详解

降龙十八掌

【十八掌●基本功篇】第一掌：Java之IO

【十八掌●基本功篇】第一掌：Java之多线程--锁

【十八掌●基本功篇】第一掌：Java之HashMap

【十八掌●基本功篇】第一掌：Java之String的equals方法

镇天十八掌真厉害

设计模式之-降龙十八掌

Debug如何引流（降龙十八掌）

【十八掌●基本功篇】第二掌：Linux之用户和文件权限总结

【十八掌●基本功篇】第一掌：Java之多线程--信号量

【十八掌●基本功篇】第一掌：Java之多线程--3-线程池

数据库优化之降龙十八掌

大数据技术●降龙十八掌【目录】

【十八掌●基本功篇】第一掌：Java之多线程--2-join、同步、死锁、等待

【十八掌●基本功篇】第一掌：Java之多线程--1-一些概念

IT十八掌大数据技术资料+内部资料

html5降龙十八掌-函数，对象，数组的练习

十八掌徐培成倾力打造大数据开发

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)