MINUS,外连接,NOT IN,NOT EXISTS 的效率比较

关于 MINUS,外连接,NOT IN,NOT EXISTS 的效率比较,绝对是一个很老很老的话题了.

如果要完成这个需求:"取出一些记录,在表A中,不在表B中", 你会采用哪种方案?为什么会采用这种方案?

我作了一个实验, 发现随着数据库版本的不同,CBO的工作方式也有变化.

本文仅限于一般性的分析, 不涉及internal.

一. 概述
首先, 我必须纠正自己的一个"错误认识": MINUS的效率很低.
针对上面提到的需求,采用哪种查询方式,其效率取决于:

1. 两个表的数据量,以及数据分布;
2. 表有没有经过分析;
3. 子查询中是否包含NULL值 (很重要);
4. 是否存在索引;
5. 数据库版本:不同版本的数据库,优化器的工作方式会有差异.
二. 环境
首先测试的数据库的版本是Oracle 9.0.1.5,接下来我会在10G中也测试一下.

两个与优化器工作原理相关的的参数都用的是缺省值.

optimizer_index_caching
integer
0

optimizer_index_cost_adj
integer
100

表T1,T2,结构相同,但是数据不同.T2可以看成是T1的子集.
表的结构很简单,都取自dba_objects视图

create table t1 as select * from dba_objects where rownum<=13000;

create table t2 as select * from dba_objects where rownum<=11000;

Create index ix_t2 on t2(object_id);

三. 测试
目标: 我想把T1表中其它的数据也导入到T2表.

方式: 启动SQL TRACE, 再用tkprof对生成的trace文件进行解析.

首先用 NOT IN来执行,

1. 使用 NOT IN
select count(*) from t1 where object_id not in ( select object_id from t2);

call
count
cpu
elapsed
disk
query
current
rows

Parse
1
0.00
0.01
0
0
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
16.84
18.05
190
1153542
0
1

total
4
16.84
18.06
190
1153542
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
TABLE ACCESS FULL T1

11000
TABLE ACCESS FULL T2

结论: 两次全表扫描的代价显然太高了,无疑是效率最低的方案.
2. 使用MINUS
alter system flush shared_pool;
alter session set sql_trace=true;
Select count(*) from
     (select object_id from t1
       minus
      select object_id from t2
     );

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.01
0.00
0
2
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.04
0.03
0
356
0
1

total
4
0.05
0.03
0
358
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
VIEW

2000
MINUS

13000
SORT UNIQUE

13000
TABLE ACCESS FULL T1

11000
SORT UNIQUE

11000
TABLE ACCESS FULL T2

结论: 看上去效率很不错
3. 使用 not exists

alter system flush shared_pool;
alter session set sql_trace=true;
select count(*)
      from t1
     where not exists
      (select null from t2 where t2.object_id = t1.object_id);

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.01
0.00
0
2
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.08
0.21
24
26197
0
1

total
4
0.09
0.21
24
26199
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
TABLE ACCESS FULL T1

11000
INDEX RANGE SCAN (object id 108538)

结论: 效率比NOT IN 好很多,但是不如MINUS,并且存在物理读.

4. 最后来看看我比较喜欢用的外连接(+)

alter system flush shared_pool;
alter session set sql_trace=true;
select count(*)
      from t1, t2
     where t1.object_id = t2.object_id(+)
      and t2.object_id IS NULL;

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.01
0.00
0
2
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.05
0.05
0
13222
0
1

total
4
0.06
0.05
0
13224
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
NESTED LOOPS OUTER

13000
TABLE ACCESS FULL T1

11000
INDEX RANGE SCAN (object id 108538)

结论: 比NOT EXISTS的效果好,不如MINUS.从查询计划来看,显然不是一个最优计划.

四. 对表分析后再测试
analyze table t1 compute statistics;

1. NOT IN

alter system flush shared_pool;
alter session set sql_trace=true;

select count(*)
from t1
where object_id not in (select object_id from t2);

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.02
0.00
0
0
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
16.04
0.05
0
0
0
1

total
4
16.06
0.05
0
0
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
TABLE ACCESS FULL T1

11000
TABLE ACCESS FULL T2

结论:与分析前相比,没有任何改变
2. MINUS

alter system flush shared_pool;
alter session set sql_trace=true;

Select count(*) from
(select object_id from t1
minus
select object_id from t2
);

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.00
0.00
0
76
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.05
0.04
0
356
0
1

total
4
0.05
0.04
0
342
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
VIEW

2000
MINUS

13000
SORT UNIQUE

13000
TABLE ACCESS FULL T1

11000
SORT UNIQUE

11000
TABLE ACCESS FULL T2

结论: 查询计划没有改变, 虽然各项指标有些不同.

3. 使用NOT EXISTS

alter system flush shared_pool;
alter session set sql_trace=true;

select count(*)
from t1
where not exists
(select null from t2 where t2.object_id = t1.object_id);

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.01
0.02
0
144
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.08
0.08
0
26197
0
1

total
4
0.09
0.10
0
26341
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
TABLE ACCESS FULL T1

11000
INDEX RANGE SCAN (object id 108538)

结论: 查询计划也没有改变.

4. 使用外连接
alter system flush shared_pool;
alter session set sql_trace=true;

select count(*)
from t1, t2
where t1.object_id = t2.object_id(+)
and t2.object_id IS NULL;

alter session set sql_trace=false;

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.01
0.00
0
1
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.02
0.01
0
223
0
1

total
4
0.03
0.01
0
224
0
1

Rows
Row Source Operation

1
SORT AGGREGATE

2000
FILTER

13000
HASH JOIN OUTER

13000
TABLE ACCESS FULL T1

11000
INDEX FAST FULL SCAN (object id 108538)

结论: 经过分析以后,使用了HASH JOIN,效率提高很明显.这是一个正确的查询计划.

总结:这四种查询模式中使用外连接的效率最高.

五. 在10G中测试
T1: 10000
T2: 9800

NOT IN

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.00
0.00
0
0
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
7.65
7.47
135
685810
0
1

total
4
7.65
7.47
135
685810
0
1

执行计划:

Rows
Row Source Operation

1
SORT AGGREGATE (cr=685810 pr=135 pw=0 time=7479614 us)

200
FILTER (cr=685810 pr=135 pw=0 time=7474258 us)

10000
TABLE ACCESS FULL T1 (cr=138 pr=135 pw=0 time=40407 us)

9800
TABLE ACCESS FULL T2 (cr=685672 pr=0 pw=0 time=7366891 us)

对T1进行分析后

call
count
Cpu
elapsed
disk
query
current
rows

Parse
1
0.00
0.01
0
3
0
0

Execute
1
0.00
0.00
0
0
0
0

Fetch
2
0.01
0.01
22
165
0
1

total
4
0.01
0.02
22
168
0
1

执行计划：

Rows
Row Source Operation

1
SORT AGGREGATE (cr=165 pr=22 pw=0 time=15933 us)

200
HASH JOIN ANTI (cr=165 pr=22 pw=0 time=15973 us)

10000
TABLE ACCESS FULL T1 (cr=138 pr=0 pw=0 time=10075 us)

9800
INDEX FAST FULL SCAN IX_T2 (cr=27 pr=22 pw=0 time=10529 us)(object id 52081)

另外, 通过对NOT EXISTS的分析,发现它的效率要好于MINUS,这也是一个变化.

六. 结束语
从上面的对比分析,可以得出这样的结论:

10G的CBO要比9i的CBO智能了不少, 对于NOT IN 和NOT EXISTS 这两种使用频率较高的语句,能使用最优的查询计划.

MINUS,外连接,NOT IN,NOT EXISTS 的效率比较

猜你喜欢