子查询优化「一」｜小册免费学

主要探讨 in exist 类型子查询在 mysql 的优化策略

总体分为：

区别是什么？

非关联子查询：子查询中不涉及外层查询参数。很直接的想法：

那关联子查询呢？首先它本身查询就是不完整的，查询闭包中包含一些外层查询提供的参数，至于知道这些参数才能运行该查询。

非关联 IN 子查询

SELECT * FROM s1 
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
复制代码

直观的想法在上面已经说啦，说几个问题：

首先是不相关的，那就确实可以写在一个结果集中，主体就是对结果集进行优化：

因为 hash index 的存在，所以查询就是判断 column value 是否在集合中。

当然结果集很大，超过临时表内存限制，内存临时表会转换为使用磁盘存储，hash index -> b+ index。

这个过程就叫：物化

从上面的优化：

整体来看就是：两个表之间的匹配操作，这个不就是《经典连接》吗？

SELECT s1.* FROM s1 INNER JOIN <materialized_table> ON key1 = m_val;
复制代码

那么会回到连接本身的成本计算了：首先这是 inner join

连接成本 = 单次访问 <驱动表> 成本 + 驱动表循环次 ✖️ 单次 <被驱动表> 访问成本

成本计算的差别就在：

所以就看这两个的访问成本差别了。

上次在讨论成本的时候，不管是哪个作为驱动表，都必须先把子查询先物化，然后开始连接。

进一步优化：把物化过程做掉。回到最上面的实例sql：

SELECT * FROM s1 
    WHERE key1 IN (SELECT key2 FROM s2 WHERE key3 = 'a');
复制代码

sql 最终的结果集选取的是：

s1 中找到可以在过滤后的 s2 中匹配的记录，匹配的条件是 s1.key1 = s1.key2

而具体 semi-join 是什么？

下篇我们来说说。

未完待续。。。