尽量不要使用 distinct

原文出处:

https://blog.csdn.net/u010745238/article/details/42846897

http://blog.sina.com.cn/s/blog_5017ea6c0101e3c4.html

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html


尽量不要使用 distinct

大多数情况下,Distinct函数都会导致对最终结果集完成一次排序,因此,这就成为成本最昂贵的排序之一。Distinct一直是SQL语言中成本最高的函数之一。不过,对于DB2V9,优化工具会尽量利用索引来消除为确定唯一性所带来的排序,其方法类似于目前用GroupBy语句完成优化时的做法。不过,实际上不必在SQL中使用Distinct,完全可以使用其他方式重写查询来得到同样的结果,这样做往往更为高效。开发人员现在都很喜欢用Distinct,很多人在所有语句上都会加上Distinct来确保不出现重复。不过这种代码的效率很低。在对应用调优时,我首先要做的事情之一就是审查源代码,找出所有包含Distinct的语句,了解这些查询是否确实会得到重复的结果,查看这个Distinct是否会导致一个排序,然后重写这些语句。通过对每晚批量作业的全面分析,就能很容易地大幅减少批量处理周期时间。不过要记住,如果查询中包含Distinct,只要不会因此导致执行一个排序,这个查询可能也很高效。

要从结果集消除重复,可以尝试下面的做法:

使用GroupBy(V9之前),这会利用关联索引来消除为确定唯一性所导致的排序。

使用一个In或Exists子查询重写查询。如果某个表可能导致重复(由于是一对多关系),但是这个表中并不包含结果集将返回的数据,这种情况下这种方法就很适用。

例如,给定当前参与项目的一组员工。其中很多员工可能同时参加了多个项目,不过我们希望他们只出现一次。以下查询:

SELECTDISTINCTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

GROUPBYE.EMPNO,E.LASTNAME

也可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREEXISTS

(SELECT1

FROMEMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO)

还可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREE.EMPNOIN

(SELECTEP.EMPNO

FROMEMPPROJACTEP)




用EXISTS替换DISTINCT ,提高效率

用EXISTS替换DISTINCT: 当提交一个包含一对多表信息(比如部门表和雇员表)的查询时,避免在SELECT子句中使用DISTINCT. 一般可以考虑用EXIST替换, EXISTS 使查询更为迅速,因为RDBMS核心模块将在子查询的条件一旦满足后,立刻返回结果.尽量使用exists而不是distinct,因为distinct在禁止重复行之前要排序检索到的行。

例子:

(低效):

SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E WHERE D.DEPT_NO = E.DEPT_NO

(高效):

SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X' FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO);

用EXISTS的确可以替代DISTINCT,不过以上方案仅适合DEPT_NO为唯一主键的情况。 如果要去掉重复记录,需参照以下方法:

SELECT * FROM EMP WHERE DEPT_NO EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)

 

得到重复记录数

SELECT * FROM EMP WHERE DEPT_NO NOT EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)





MySQL中distinct和group by性能比较

之前看了网上的一些测试,感觉不是很准确,今天亲自测试了一番。得出了结论(仅在个人计算机上测试,可能不全面,仅供参考)

测试过程:

准备一张测试表 

1    CREATE TABLE `test_test` (
2      `id` int(11) NOT NULL auto_increment,
3      `num` int(11) NOT NULL default '0',
4      PRIMARY KEY  (`id`)
5     ) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

建个储存过程向表中插入10W条数据 

复制代码
01    create procedure p_test(pa int(11)) 
02     begin 
03       
04      declare max_num int(11) default 100000; 
05      declare i int default 0; 
06      declare rand_num int; 
07       
08      select count(id) into max_num from test_test; 
09       
10      while i < pa do 
11              if max_num < 100000 then 
12                      select cast(rand()*100 as unsigned) into rand_num; 
13                      insert into test_test(num)values(rand_num); 
14              end if; 
15              set i = i +1; 
16      end while; 
17     end
复制代码

调用存储过程插入数据

1    call p_test(100000);

开始测试:(不加索引)

复制代码
01    select distinct num from test_test; 
02    select num from test_test group by num; 
03     
04    [SQL] select distinct num from test_test;
05    受影响的行: 0
06    时间: 0.078ms
07     
08    [SQL]  
09    select num from test_test group by num;
10    受影响的行: 0
11    时间: 0.031ms
复制代码

二、num字段上创建索引

 

1    ALTER TABLE `test_test` ADD INDEX `num_index` (`num`) ;

 

再次查询

复制代码
01    select distinct num from test_test; 
02    select num from test_test group by num; 
03    [SQL] select distinct num from test_test;
04    受影响的行: 0
05    时间: 0.000ms
06     
07    [SQL]  
08    select num from test_test group by num;
09    受影响的行: 0
10    时间: 0.000ms
复制代码

这时候我们发现时间太小了 0.000秒都无法精确了。

 

我们转到命令行下 测试

复制代码
01    mysql> set profiling=1;
02    mysql> select distinct(num) from test_test; 
03    mysql> select num from test_test group by num;
04    mysql> show profiles;
05    +----------+------------+----------------------------------------+
06    | Query_ID | Duration   | Query                                  |
07    +----------+------------+----------------------------------------+
08    |        1 | 0.00072550 | select distinct(num) from test_test    |
09    |        2 | 0.00071650 | select num from test_test group by num |
10    +----------+------------+----------------------------------------+
复制代码

 

加了索引之后 distinct 比没加索引的 distinct 快了 107倍。

 

加了索引之后 group by 比没加索引的 group by 快了 43倍。

 

再来对比 :distinct  和 group by

 

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

 


猜你喜欢

转载自blog.csdn.net/artaganan8/article/details/79976241