oracle中sql优化

问题描述：刚开始做项目的时候没啥感觉，只用能出来结果，sql随便写，但是后来用户的数据量达到几万条是，在访问系统，发现很多功能加载都很慢，有的页面一个简单的关联

查询居然要花费30多秒，实在是不能忍，所以自己研究了一下sql优化技巧，特此记录一下：

1. exists和in的使用

参考文档：https://www.cnblogs.com/liyasong/p/sql_in_exists.html

(1) exists是用循环(loop)的方式，由outer表的记录数决定循环的次数，所以，外表的记录数少，适合用exists;

用法：EXISTS后面跟一个子查询，当该查询可以查询出至少一条记录时返回真(not为不存在)

SELECT *
  FROM t_f_hz t1
 WHERE EXISTS
          (SELECT f_hz_id
             FROM T_F_T_POSSIBLELIST t2
            WHERE f_hz_id = t1.pk_id and f_hz_id = 1);

(2) in先执行子查询，子查询的返回结果去重之后，在执行主查询，所以，子查询的返回结果越少，越适合用该方式。

SELECT *
  FROM prj
 WHERE f_name IN (SELECT f_name
                    FROM POSSIBLELIST
                   WHERE f_hz_id = '1531104');

　　这个查询语句中，当表中possiblelist查询出来的数据较少时，使用in，此时会将possiblelist表中查询出来的数据数量n(假设)

和prj表中的数据m(假设)做一个笛卡尔积，共(m*n)条数据，然后在查找出符合条件的数据。

　　如果prj中数据较少时，应该使用exists，此时会先查询主表prj，然后用表中的每一条数据依次去判断where后面的条件是否成立，

如果成立则返回true不成立则返回false。如果返回的是true的话，则该行结果保留，如果返回的是false的话，则删除该行，最后将得到的结果返回。

exists (SELECT f_name
　　        FROM POSSIBLELIST
         　 WHERE f_hz_id = '1531104');

总结：如果两个表一个较大，一个较小，则子查询大的用exists，子查询小的用in。

当只显示一个表的数据（只显示prj表的数据），关系条件只有一个where f_name in ()时用in比较合适。

当只显示一个表的数据，关系条件不止一个，此时使用in就不方便了，可以使用exists。

SELECT *
  FROM t1
 WHERE EXISTS
          (SELECT fk_id
             FROM t2
            WHERE f_hz_id = t1.f_hz_id AND f_pac_id = t1.f_pac_id)

(3)not in 和not exists：

　　如果查询语句使用了not in 那么内外表都进行全表扫描，没有用到索引；而not extsts 的子查询依然能用到表上的索引。

所以无论那个表大，用not exists都比not in要快。

2. is null和is not null优化

where子句中的is null和is not null将不会使用索引而是进行全表搜索，因此需要通过改变查询方式，分情况讨论等办法，去掉

where子句中的is null和is not null改为 A >0 或者 A> ' '。

select * from t1 where fk_pid is null
--优化如下：将为空的字段转为不为空的值(确保数据中是不会出现1）
select * from t1 where  nvl(fk_pid,'1') = '1'   

select * from t1 where fk_pid is null
--优化如下：
select * from t1 where fk_pid = nvl(fk_pid,'1')

3. 多张表关联查询优化

参考文档：https://www.cnblogs.com/liuyitian/p/5249597.html

　　　　 https://blog.csdn.net/tanga842428/article/details/52265991

(1) 多张表关联查询中，将数据量小的表写在from的最右边。

原因：oracle在解析sql语句的时候对from子句后面的表名是从右往左解析的，是先扫描最右边的表，

　　然后在扫描左边的表，然后用左边的表匹配数据，匹配成功后就合并。在RBO优化器模式下，表应按结果记录数从大到小的顺序从左到右来排列，

因为表间连接时，最右边的表会被放到嵌套循环的最外层。最外层的循环次数越少，效率越高。

如果有3个以上的表连接查询，那就需要将交叉表(中间表)放到最右边。

-- 6484500条 282ms
select count(*) from t1, t2;

--6484500 400ms
select count(*) from t2,t1;

--64845 60ms 
select count(*) from t1;

--100 55ms
select count(*) from t2;

(2) where子句连接顺序

oracle采用自下而上的顺序解析where子句，根据这个原理,表之间的连接必须写在其他WHERE条件之前,

那些可以过滤掉最大数量记录的条件必须写在where子句的末尾。但是网上有很多中说法，有的说是过滤

最大数据量的条件放在最右边，也有的说是放在最左边。但是根据自己的测试结果，感觉放在最左边和最右边对性能影响不是很大。

3. 模糊查询like优化

oracle内部对instr进行了优化处理。

select * from table_hz hz where instr(hz.f_name,#{f_name,jdbcType=VARCHAR})>0

4.distinct优化

distinct在查询中经常用来去重，

1. exists和in的使用

2. is null和is not null优化

3. 多张表关联查询优化

3. 模糊查询like优化

4.distinct优化

猜你喜欢