在上期的分享《达梦SQL优化——基础篇》中,我们学习了做单表查询时常见的SQL操作符,这次我们就来看看多表查询中的操作符。
01
多表连接操作符
在做多表连接查询时,我们可能会碰到的SQL操作符有以下几种类别:
NEST LOOP 嵌套循环连接
HASH JOIN 哈希连接
INDEX JOIN 索引连接
MERGE JOIN 归并连接
查询中出现的一般都不只一张表,不同的表会有一定的关系,处理多张表时就会涉及到这些操作符,此处我们只看两张表的情况,多表的情形可以类推。
02
搭建测试环境
构建测试用表并录入数据
create table t1(id varchar);
create table t2(id varchar);
insert into t1 values('AMEE'),('AMSS'),('BURNING'),('ABED'),('CHALICE');
insert into t2 values('AAAA'),('AAAA'),('BBBB'),('CCCC'),('DDDD'),('AAME'),('AMEE'),('EEEE');
03
相关测试
NEST LOOP INNER JOIN :最基础的连接方式,将一张表的一个值与另一张表的所有值拼接,形成一个大结果集,再从大结果集中过滤出满足条件的行
SEL9中的/*+ENABLE_HASH_JOIN(0)*/ 为优化器提示,此处是对ini进行语句级动态提示,意为不启用hash连接。
这里T1中存在5行数据,T2中存在8行数据,NEST LOOP JOIN 就是将这两个表无条件组成一张5 * 8 = 40 行的表,然后对这40行的表依次筛选出 T1.ID = T2.ID的数据(SLCT操作符)。
不难看出,这种方式是我们比较不希望看到的,如果T1,T2表非常大,那么生成的表会非常大,同样上层过滤条件需要执行的次数也非常多。输出上,结果集按左表(T1)涉及的索引有序
HASH JOIN:没有索引的情况下,大多数连接的处理方式,将一张表的连接列做成HASH表,另一张表的数据向这个HASH表匹配,满足条件的返回
计划的形式一般如下
两张表进行等值连接时会默认选择HASH JOIN。以一张表的连接列为Hash键,构造HASH表,另一张表的连接列进行HASH探测,找到满足条件的记录。由于HASH命中率高,因此,在大数据量情况下,HASH JOIN的效率较NEST LOOP 会高很多,主要的计算量有三个部分
1.对左右表的全表扫描(T1,T2)
2.HASH 表的计算 (取决于HASH算法的计算复杂度)
3.右表(T2)每行数据进行匹配
由于所有的输出都是在扫描右表时完成的,HASH JOIN 的输出是按右表涉及的索引有序的
INDEX JOIN: 将一张表的数据拿出,去另外一张表上进行范围扫描找出需要的数据行,需要右表的连接列上存在索引
这样的做法基本等价于,在右表(T2)上做N次(select * from t2 where id = ?)这样的语句,开销取决于select * from t2 where id = ?这样语句的结果集行数以及左表T1的行数,若两者都很小,那么这种方式是最理想的连接方式。这种连接方式是按T1的基表操作符涉及的索引有序输出的。
MERGE JOIN:两张表都扫描索引,按照索引顺序进行归并
需要同时SSCN 两条有序索引,将其中满足条件的值输出到结果集,效率比NEST LOOP 要高。这里的输出是按T1 的索引有序的。
SPL:某一张表输出一行结果后,带入到另一个表中进行执行,满足条件则输出
在这里两张表的情况下,我们看到首先是对T1进行扫描获取到数据,然后每一行结果放到T2中进行过滤(SEEK I_TEST2 scan_range[var1,var1]),两张表的情况下,这样的处理方式和INDEX JOIN 基本类似,但在一些更复杂的情况中不能使用INDEX JOIN 的时候,这样的处理方式有助于提升处理效率。