上海腾科教育达梦数据库培训干货分享达梦SQL优化——基础篇(2)

在上期的分享《达梦SQL优化——基础篇》中,我们学习了做单表查询时常见的SQL操作符,这次我们就来看看多表查询中的操作符。

01

多表连接操作符

在做多表连接查询时,我们可能会碰到的SQL操作符有以下几种类别:

NEST LOOP   嵌套循环连接

HASH JOIN    哈希连接

INDEX JOIN   索引连接

MERGE JOIN  归并连接      

查询中出现的一般都不只一张表,不同的表会有一定的关系,处理多张表时就会涉及到这些操作符,此处我们只看两张表的情况,多表的情形可以类推。

02

搭建测试环境

构建测试用表并录入数据

create table t1(id varchar);

create table t2(id varchar);

insert into t1 values('AMEE'),('AMSS'),('BURNING'),('ABED'),('CHALICE');

insert into t2 values('AAAA'),('AAAA'),('BBBB'),('CCCC'),('DDDD'),('AAME'),('AMEE'),('EEEE');

03

相关测试

NEST LOOP INNER JOIN :最基础的连接方式,将一张表的一个值与另一张表的所有值拼接,形成一个大结果集,再从大结果集中过滤出满足条件的行

SEL9中的/*+ENABLE_HASH_JOIN(0)*/ 为优化器提示,此处是对ini进行语句级动态提示,意为不启用hash连接。

这里T1中存在5行数据,T2中存在8行数据,NEST LOOP JOIN 就是将这两个表无条件组成一张5 * 8 = 40 行的表,然后对这40行的表依次筛选出 T1.ID = T2.ID的数据(SLCT操作符)。

不难看出,这种方式是我们比较不希望看到的,如果T1,T2表非常大,那么生成的表会非常大,同样上层过滤条件需要执行的次数也非常多。输出上,结果集按左表(T1)涉及的索引有序

HASH JOIN:没有索引的情况下,大多数连接的处理方式,将一张表的连接列做成HASH表,另一张表的数据向这个HASH表匹配,满足条件的返回

计划的形式一般如下

两张表进行等值连接时会默认选择HASH JOIN。以一张表的连接列为Hash键,构造HASH表,另一张表的连接列进行HASH探测,找到满足条件的记录。由于HASH命中率高,因此,在大数据量情况下,HASH JOIN的效率较NEST LOOP 会高很多,主要的计算量有三个部分

1.对左右表的全表扫描(T1,T2)

2.HASH 表的计算 (取决于HASH算法的计算复杂度)

3.右表(T2)每行数据进行匹配

由于所有的输出都是在扫描右表时完成的,HASH JOIN 的输出是按右表涉及的索引有序的

INDEX JOIN: 将一张表的数据拿出,去另外一张表上进行范围扫描找出需要的数据行,需要右表的连接列上存在索引

这样的做法基本等价于,在右表(T2)上做N次(select * from t2 where id = ?)这样的语句,开销取决于select * from t2 where id = ?这样语句的结果集行数以及左表T1的行数,若两者都很小,那么这种方式是最理想的连接方式。这种连接方式是按T1的基表操作符涉及的索引有序输出的。

MERGE JOIN:两张表都扫描索引,按照索引顺序进行归并

需要同时SSCN 两条有序索引,将其中满足条件的值输出到结果集,效率比NEST LOOP 要高。这里的输出是按T1 的索引有序的。

SPL:某一张表输出一行结果后,带入到另一个表中进行执行,满足条件则输出

在这里两张表的情况下,我们看到首先是对T1进行扫描获取到数据,然后每一行结果放到T2中进行过滤(SEEK I_TEST2 scan_range[var1,var1]),两张表的情况下,这样的处理方式和INDEX JOIN 基本类似,但在一些更复杂的情况中不能使用INDEX JOIN 的时候,这样的处理方式有助于提升处理效率。

猜你喜欢

转载自blog.csdn.net/qq_42726883/article/details/108487406