mysql执行顺序与索引算法

SQL查询中用到的关键词：select、distinct、from、join、on、where、group by、having、sum、count、max、avg、order by、limit

一、书写顺序：

select->distinct->from->join->on->where->group by->having->order by->limit

必须字段：select、from

可选字段：distinct、join、on、where、group by、having、sum、count、max、avg、order by、limit

二、执行顺序

from->on->join->where->group by（开始使用select中的别名，后面的语句中都可以使用别名）->sum、count、max、avg->having->select->distinct->order by->limit

mysql大致执行顺序如下：

from 阶段
where 阶段
group by 阶段
having 阶段
select 阶段
order by 阶段
limit 阶段

三、提问

问题：为什么字段别名不可以使用在where中，但可以使用在order by中？

因为select的执行顺序靠后，所以在它之前执行的查询阶段，都不能使用。而order by阶段是在select的后面，所以是可以使用字段别名的。

四、关键词含义

from：需要从哪个数据表检索数据（需要检索那张数据表）
join：对需要关联查询的表进行关联（需要关联那种查询表）

关联查询时，数据库会选择一个驱动表，然后用此表的记录去关联其他表
left join一般以左表为驱动表（right join一般为右表）,inner join一般以结果集少的表为驱动表,left join某些情况下会被查询优化器优化为inner join

驱动表选择原则：在对最终结果集没影响的前提下，优先选择结果集最少的那张表作为驱动表

注：可以使用explain查找驱动表，结果的第一张表即为驱动表，但执行计划在真正执行时可能发生改变

on：关联条件
where：过滤表中数据的条件
- 执行顺序：自下而上、从右到左
- 注：对数据库记录生效，无法对聚合结果生效，可以过滤掉最大数量记录的条件必须写在where子句末尾，不能使用聚合函数（sum、count、max、avg）
group by：如何将上面过滤出的数据分组
- 执行顺序：从左往右
- 注：尽量在group by之前使用where过滤，避免之后使用having过滤
avg：求平均值
having：对上面已经分组的数据进行过滤的条件
- 注：对聚合结果过滤，因此很耗资源，可以使用聚合函数
- 例：筛选统计人口数量大于100W的地区
  
  select region, sum(population), sum(area) from bbc group by region having sum(population)>1000000，不能用where筛选超过100W的地区，因为不存在这样的一条记录
select：查看结果集中的哪个列或列的计算结果
distinct：对结果集重复值去重
order by：按照什么样的顺序来查看返回的数据
- 执行顺序：从左到右
- 注：很耗资源
limit：截取出目标页数据

五、索引关联中使用的算法

在使用索引关联的情况下，有Index Nested-Loop join（索引套用循环连接）和Batched Key Access join（批量密钥访问连接）两种算法
在未使用索引关联的情况下，有Simple Nested-Loop join（简单嵌套循环连接）和Block Nested-Loop join（缓存块嵌套循环连接）两种算法

算法分析

Simple Nested-Loop join（SNLJ，简单嵌套循环连接）算法：根据on条件，从驱动表取一条数据，然后全表扫面被驱动表，将符合条件的记录放入最终结果集中。这样驱动表的每条记录都伴随着被驱动表的一次全表扫描
- 匹配次数：外层表行数*内层表行数
Index Nested-Loop Join（INLJ，索引嵌套循环连接）算法：索引嵌套循环连接是基于索引进行连接的算法，索引是基于内层表的，通过外层表匹配条件直接与内层表索引进行匹配，避免和内层表的每条记录进行比较，从而利用索引的查询减少了对内层表的匹配次数
- 匹配次数：外层表行数*内层表索引高度
Block Nested-Loop Join（BNLJ，缓存块嵌套循环连接）算法：缓存块嵌套循环连接通过一次性缓存多条数据，把参与查询的列缓存到Join Buffer 里，然后拿join buffer里的数据批量与内层表的数据进行匹配，从而减少了内层循环的次数（遍历一次内层表就可以批量匹配一次Join Buffer里面的外层表数据）。
当不使用Index Nested-Loop Join的时候，默认使用Block Nested-Loop Join
Batched Key Access join（BKAJ）算法：和SNLJ算法类似，但用于被join表上有索引可以利用，那么在行提交给被join的表之前，对这些行按照索引字段进行排序，因此减少了随机IO，排序这才是两者最大的区别，但是如果被join的表没用索引呢？那就使用BNLJ了

六、什么是`Join Buffer`?

Join Buffer会缓存所有参与查询的列而不是只有Join的列。
可以通过调整join_buffer_size缓存大小
join_buffer_size的默认值是256K，join_buffer_size的最大值在MySQL 5.1.22版本前是4G，而之后的版本才能在64位操作系统下申请大于4G的Join Buffer空间。
使用Block Nested-Loop Join算法需要开启优化器管理配置的optimizer_switch的设置block_nested_loop为on，默认为开启。
在选择Join算法时，会有优先级，理论上会优先判断能否使用INLJ、BNLJ：
Index Nested-LoopJoin > Block Nested-Loop Join > Simple Nested-Loop Join

参考链接: