原文出处：

https://blog.csdn.net/u010745238/article/details/42846897

http://blog.sina.com.cn/s/blog_5017ea6c0101e3c4.html

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

尽量不要使用 distinct

大多数情况下，Distinct函数都会导致对最终结果集完成一次排序，因此，这就成为成本最昂贵的排序之一。Distinct一直是SQL语言中成本最高的函数之一。不过，对于DB2V9，优化工具会尽量利用索引来消除为确定唯一性所带来的排序，其方法类似于目前用GroupBy语句完成优化时的做法。不过，实际上不必在SQL中使用Distinct，完全可以使用其他方式重写查询来得到同样的结果，这样做往往更为高效。开发人员现在都很喜欢用Distinct，很多人在所有语句上都会加上Distinct来确保不出现重复。不过这种代码的效率很低。在对应用调优时，我首先要做的事情之一就是审查源代码，找出所有包含Distinct的语句，了解这些查询是否确实会得到重复的结果，查看这个Distinct是否会导致一个排序，然后重写这些语句。通过对每晚批量作业的全面分析，就能很容易地大幅减少批量处理周期时间。不过要记住，如果查询中包含Distinct，只要不会因此导致执行一个排序，这个查询可能也很高效。

要从结果集消除重复，可以尝试下面的做法：

使用GroupBy（V9之前），这会利用关联索引来消除为确定唯一性所导致的排序。

使用一个In或Exists子查询重写查询。如果某个表可能导致重复（由于是一对多关系），但是这个表中并不包含结果集将返回的数据，这种情况下这种方法就很适用。

例如，给定当前参与项目的一组员工。其中很多员工可能同时参加了多个项目，不过我们希望他们只出现一次。以下查询：

SELECTDISTINCTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

可以重写为：

SELECTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

GROUPBYE.EMPNO,E.LASTNAME

也可以重写为：

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREEXISTS

(SELECT1

FROMEMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO)

还可以重写为：

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREE.EMPNOIN

(SELECTEP.EMPNO

FROMEMPPROJACTEP)

用EXISTS替换DISTINCT ,提高效率

用EXISTS替换DISTINCT：当提交一个包含一对多表信息(比如部门表和雇员表)的查询时,避免在SELECT子句中使用DISTINCT. 一般可以考虑用EXIST替换, EXISTS 使查询更为迅速,因为RDBMS核心模块将在子查询的条件一旦满足后,立刻返回结果.尽量使用exists而不是distinct,因为distinct在禁止重复行之前要排序检索到的行。

例子：

(低效):

SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E WHERE D.DEPT_NO = E.DEPT_NO

(高效):

SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X' FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO);

用EXISTS的确可以替代DISTINCT，不过以上方案仅适合DEPT_NO为唯一主键的情况。如果要去掉重复记录，需参照以下方法：

SELECT * FROM EMP WHERE DEPT_NO EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)

得到重复记录数

SELECT * FROM EMP WHERE DEPT_NO NOT EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)

MySQL中distinct和group by性能比较

之前看了网上的一些测试，感觉不是很准确，今天亲自测试了一番。得出了结论(仅在个人计算机上测试，可能不全面，仅供参考)

测试过程：

准备一张测试表

1    CREATE TABLE `test_test` (
2      `id` int(11) NOT NULL auto_increment,
3      `num` int(11) NOT NULL default '0',
4      PRIMARY KEY  (`id`)
5     ) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

建个储存过程向表中插入10W条数据

01    create procedure p_test(pa int(11)) 
02     begin 
03       
04      declare max_num int(11) default 100000; 
05      declare i int default 0; 
06      declare rand_num int; 
07       
08      select count(id) into max_num from test_test; 
09       
10      while i < pa do 
11              if max_num < 100000 then 
12                      select cast(rand()*100 as unsigned) into rand_num; 
13                      insert into test_test(num)values(rand_num); 
14              end if; 
15              set i = i +1; 
16      end while; 
17     end

调用存储过程插入数据

1    call p_test(100000);

开始测试：（不加索引）

01    select distinct num from test_test; 
02    select num from test_test group by num; 
03     
04    [SQL] select distinct num from test_test;
05    受影响的行: 0
06    时间: 0.078ms
07     
08    [SQL]  
09    select num from test_test group by num;
10    受影响的行: 0
11    时间: 0.031ms

二、num字段上创建索引

1    ALTER TABLE `test_test` ADD INDEX `num_index` (`num`) ;

再次查询

01    select distinct num from test_test; 
02    select num from test_test group by num; 
03    [SQL] select distinct num from test_test;
04    受影响的行: 0
05    时间: 0.000ms
06     
07    [SQL]  
08    select num from test_test group by num;
09    受影响的行: 0
10    时间: 0.000ms

这时候我们发现时间太小了 0.000秒都无法精确了。

我们转到命令行下测试

01    mysql> set profiling=1;
02    mysql> select distinct(num) from test_test; 
03    mysql> select num from test_test group by num;
04    mysql> show profiles;
05    +----------+------------+----------------------------------------+
06    | Query_ID | Duration   | Query                                  |
07    +----------+------------+----------------------------------------+
08    |        1 | 0.00072550 | select distinct(num) from test_test    |
09    |        2 | 0.00071650 | select num from test_test group by num |
10    +----------+------------+----------------------------------------+

加了索引之后 distinct 比没加索引的 distinct 快了 107倍。

加了索引之后 group by 比没加索引的 group by 快了 43倍。

再来对比：distinct 和 group by

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by