MySQL系列-优化之精准解读in和exists

1.解读in和exists

这两个关键字的区别主要是在于子查询上面，in是独立子查询，exists是相关子查询，例如：

用in查询有员工的部门：select dept_name from dept where id in (select dept_id from emp);

用exists查询有员工的部门：select dept_name from dept where exists (select 1 from emp where dept.id=emp.dept_id);

当然，执行结果完全一致。

2.in和exists的效率问题

上面的SQL语句执行的完全结果一样，那么这两个的效率如何呢？

网上也是有很多文章进行解读，总的来说就是体现一种小数据集驱动大数据集的思想。很多文章是直接说小表驱动大表，其实这样是很不准确的，因为我们可以这样【select dept_name from dept where id in (select dept_id from emp where id>5;)】这样对于子查询来说他返回的结果集与他的表没太大关系了，所以小数据集驱动大的数据集是一种更精准的说法。参考【知乎 MySQL查询语句中的IN 和Exists 对比分析】

下面分析它的执行原理（关于版本5.5和5.6的区别在文章后面会说）：

对于in来说，他是先执行子查询然后得到子查询的结果集，再用子查询的结果去匹配外部表。这样的话需要遍历一边刚刚的结果集，如果外部表的相应字段建立了索引的话，在匹配外部表的时候就能使用上外部表的索引了。假设子查询结果大小为M，外部表的大小为N，外部表使用B+Tree索引匹配每一条数据的时间复杂度是O（log N），那么这个总的时间复杂度就相当于O（M*log N）。

对于exists来说，他是执行外表的遍历操作（不一定是全表扫描也可能是索引扫描，但是差别不是很大），然后里面的相关子查询会利用外部表的数据对内部表进行匹配，这个时候如果内部表的相关字段建立了索引的话，匹配的时候就能走索引了。同样假设子查询结果大小为M，外部表的大小为N，内部表使用B+Tree索引匹配每一条数据的时间复杂度是O（log M），那么这个总的时间复杂度就相当于O（N*log M）。

很明显：当外表大，内部数据集小，适合适使用in。当外表小，内部数据集大，适合使用exists。

3.实践检验（mysql5.5）

mysql是一代版本一代神，很多人写博客的时候都不标注出系统环境，这样可能会造成不必要的困扰。

准备数据表如下：

可以看出在emp表的dept_id上有索引。两个表的主键都是id。

首先检验exists：执行 explain select dept_name from dept where exists (select 1 from emp where dept.id=emp.dept_id);

结果和我们想像的一样，dept表的访问类型是全表扫描，emp表的访问类型是ref。

接下来检验in：执行 explain select dept_name from dept where id in (select dept_id from emp);

咦？不对啊，没有用上外部表的主键索引，外部表的访问类型是全表扫描啊！

这是因为：mysql5.5会把in的独立子查询语句转化为exists相关子查询语句，所以才出现了上面的结果。参考【搜狐科技】

在mysql5.6中则不会了，在mysql5.6中的表现和我们期待的一致，具体可以参考【深入理解MySql子查询IN的执行和优化】。

由于我的本机和服务器使用的都是5.5版本，已经是非常老的一个版本了，所以在考虑是否换成5.6或者5.7，搞不好直接换8.0了，哈哈。

4.not in和not exists

这个就比较明朗了，对于not exists来说，和exists一样会利用内部表建立好的索引，唯一的区别在于当有数据匹配的时候exists返回true而not exists返回false。

实践如下：执行SQL，explain select emp_name from emp where not exists (select 1 from dept where dept.id=dept_id);

和预期一致，外表全表扫描，内表使用上了索引。

对于not in来说，哪个表的索引的用不上，除非覆盖索引的时候用一下。

外表外表扫描，内表的查询覆盖索引，因为extra字段出现了using index，但是效率比使用索引进行查找低多了。

所以对于 not exists 和 not in 来说毫不犹豫的使用 not exists 。

5.join替代

确实，对于只查询的in和exists来说，可以用join来替代。而且用join的话我们可以更好的控制使用索引的情况，对于非外连接来说，join可以自动判断表的大小，从而使小的数据集驱动大的数据集。关于join我会在另一篇博客当中进行详细讲解。