读《MySQL性能调优与架构设计》笔记之充分利用 Explain和Profiling

1.1. Explain 的使用

我们先看一下在MySQL Explain 功能中给我们展示的各种信息的解释：

◆ ID：MySQL Query Optimizer选定的执行计划中查询的序列号。表示查询中执行select子句或操作表的顺序，id值越大优先级越高，越先被执行。id相同，执行顺序由上至下。

◆ Select_type：所使用的查询类型，主要有以下这几种查询类型

◇DEPENDENT SUBQUERY：子查询中内层的第一个SELECT，依赖于外部查询的结果集；

Dependent Subquery意味着什么

它的执行计划如下，请注意看关键词“DEPENDENT SUBQUERY”：

官方含义为：

SUBQUERY：子查询中的第一个SELECT；

DEPENDENT SUBQUERY：子查询中的第一个SELECT，取决于外面的查询。

换句话说，就是子查询对 g2 的查询方式依赖于外层 g1 的查询。

什么意思呢？它意味着两步：

第一步，MySQL 根据 select gid,count(id) from shop_goods where status=0 group by gid; 得到一个大结果集 t1，其数据量就是上图中的 rows=850672 了。

第二步，上面的大结果集 t1 中的每一条记录，都将与子查询 SQL 组成新的查询语句：

select gid from shop_goods where sid in (15...blabla..29) and gid=%t1.gid%。

等于说，子查询要执行85万次……即使这两步查询都用到了索引，但不慢才怪。

如此一来，子查询的执行效率居然受制于外层查询的记录数，那还不如拆成两个独立查询顺序执行呢。

你不想拆成两个独立查询的话，也可以与临时表联表查询，如下所示：

也能得到同样的结果，且是毫秒级。

它的执行计划为：

DERIVED 的官方含义为：

DERIVED：用于 from 子句里有子查询的情况。MySQL 会递归执行这些子查询，把结果放在临时表里。

mysql 在处理子查询时，会改写子查询。

通常情况下，我们希望由内到外，先完成子查询的结果，然后再用子查询来驱动外查询的表，完成查询。

例如：

select * from test where tid in(select fk_tid from sub_test where gid=10)

通常我们会感性地认为该 sql 的执行顺序是：

sub_test 表中根据 gid 取得 fk_tid(2,3,4,5,6)记录，

然后再到 test 中，带入 tid=2,3,4,5,6，取得查询数据。

但是实际mysql的处理方式为：

select * from test where exists (

select * from sub_test where gid=10 and sub_test.fk_tid=test.tid

)

mysql 将会扫描 test 中所有数据，每条数据都将会传到子查询中与 sub_test 关联，子查询不会先被执行，所以如果 test 表很大的话，那么性能上将会出现问题。

◇ DEPENDENT UNION：子查询中的UNION，且为UNION中从第二个 SELECT 开始的后面所有SELECT，同样依赖于外部查询的结果集；

◇ PRIMARY：子查询中的最外层查询，注意并不是主键查询；

◇ SIMPLE：除子查询或者UNION之外的其他查询；

◇ SUBQUERY：子查询内层查询的第一个SELECT，结果不依赖于外部查询结果集；

◇ UNCACHEABLE SUBQUERY：结果集无法缓存的子查询；

◇ UNION：UNION语句中第二个SELECT 开始的后面所有SELECT，第一个SELECT 为PRIMARY

◇ UNION RESULT：UNION中的合并结果；

◆ Table：显示这一步所访问的数据库中的表的名称；

◆ Type：告诉我们对表所使用的访问方式，主要包含如下集中类型；

◇ all：全表扫描

◇ const：读常量，且最多只会有一条记录匹配，由于是常量，所以实际上只需要读一次；

◇ eq_ref：最多只会有一条匹配结果，一般是通过主键或者唯一键索引来访问；

◇ fulltext：

◇ index：全索引扫描；

◇ index_merge：查询中同时使用两个（或更多）索引，然后对索引结果进行merge 之后再读取表数据；

◇ index_subquery：子查询中的返回结果字段组合是一个索引（或索引组合），但不是一个主键或者唯一索引；

◇ rang：索引范围扫描；

◇ ref：Join语句中被驱动表索引引用查询；

◇ ref_or_null：与ref的唯一区别就是在使用索引引用查询之外再增加一个空值的查询；

◇ system：系统表，表中只有一行数据；

◇ unique_subquery：子查询中的返回结果字段组合是主键或者唯一约束；

◆ Possible_keys：该查询可以利用的索引. 如果没有任何索引可以使用，就会显示成null，这一项内容对于优化时候索引的调整非常重要；

◆ Key：MySQLQuery Optimizer 从possible_keys 中所选择使用的索引；

◆ Key_len：被选中使用索引的索引键长度；

◆ Ref：列出是通过常量（const），还是某个表的某个字段（如果是join）来过滤（通过key）的；

◆ Rows：MySQLQuery Optimizer 通过系统收集到的统计信息估算出来的结果集记录条数；

◆ Extra：查询中每一步实现的额外细节信息，主要可能会是以下内容：

◇ Distinct：查找distinct值，所以当mysql 找到了第一条匹配的结果后，将停止该值的查询而转为后面其他值的查询；

◇ Full scan on NULL key：子查询中的一种优化方式，主要在遇到无法通过索引访问null值的使用使用；

◇ Impossible WHERE noticedafter reading const tables：MySQL Query Optimizer 通过收集到的统计信息判断出不可能存在结果；

◇ No tables：Query语句中使用FROM DUAL 或者不包含任何FROM 子句；

◇ Not exists：在某些左连接中MySQLQuery Optimizer 所通过改变原有Query 的组成而使用的优化方法，可以部分减少数据访问次数；

◇ Range checked for eachrecord (index map: N)：通过MySQL 官方手册的描述，当MySQL Query Optimizer 没有发现好的可以使用的索引的时候，如果发现如果来自前面的表的列值已知，可能部分索引可以使用。对前面的表的每个行组合，MySQL 检查是否可以使用range 或index_merge 访问方法来索取行。

◇ Select tables optimizedaway：当我们使用某些聚合函数来访问存在索引的某个字段的时候，MySQL Query Optimizer 会通过索引而直接一次定位到所需的数据行完成整个查询。当然，前提是在Query 中不能有GROUP BY 操作。如使用MIN()或者MAX（）的时候；

◇ Using filesort：当我们的Query中包含ORDER BY 操作，而且无法利用索引完成排序操作的时候，MySQL Query Optimizer 不得不选择相应的排序算法来实现。

◇ Using index：所需要的数据只需要在Index即可全部获得而不需要再到表中取数据；

◇ Using index for group-by：数据访问和Usingindex 一样，所需数据只需要读取索引即可，而当Query 中使用了GROUP BY 或者DISTINCT 子句的时候，如果分组字段也在索引中，Extra 中的信息就会是Using index for group-by；

◇ Using temporary：当MySQL在某些操作中必须使用临时表的时候，在Extra 信息中就会出现Using temporary 。主要常见于GROUP BY 和ORDER BY 等操作中。

◇ Using where：如果我们不是读取表的所有数据，或者不是仅仅通过索引就可以获取所有需要的数据，则会出现Using where 信息；

◇ Using where with pushedcondition：这是一个仅仅在NDBCluster 存储引擎中才会出现的信息，而且还需要通过打开Condition Pushdown 优化功能才可能会被使用。控制参数为engine_condition_pushdown 。

这里我们通过分析示例来看一下不同的Query 语句通过Explain 所显示的不同信息：

我们先看一个简单的单表Query：

> explain select count(*),max(id),min(id) from user\G

********************1. row ***************************

id: 1

select_type: SIMPLE

table: NULL

type: NULL

possible_keys:NULL

key: NULL

key_len: NULL

ref: NULL

rows: NULL

Extra: Select tables optimized away

对user 表的单表查询，查询类型为SIMPLE，因为既没有UNION 也不是子查询。聚合函数MAX MIN以及COUNT 三者所需要的数据都可以通过索引就能够直接定位得到数据，所以整个实现的Extra 信息为Select tables optimized away。

再来看一个稍微复杂一点的Query，一个子查询：

> explain select name from groups where id in

( select group_id from user_group whereuser_id = 1)\G

*********************** 1.row *************************

id: 1

select_type: PRIMARY

table: groups

type: ALL

possible_keys:NULL

key: NULL

key_len: NULL

ref: NULL

rows: 50000

Extra: Using where

************************2. row *************************

id: 2

select_type: DEPENDENT SUBQUERY

table: user_group

type: ref

possible_keys:user_group_gid_ind,user_group_uid_ind

key: user_group_uid_ind

key_len: 4

ref: const

rows: 1

Extra: Using where

通过id 信息我们可以得知MySQL Query Optimizer 给出的执行计划是首先对groups进行全表扫描，然后第二步才访问user_group 表，所使用的查询方式是DEPENDENT SUBQUERY，对所需数据的访问方式是索引扫描，由于过滤条件是一个整数，所以索引扫描的类型为ref，过滤条件是const。可以使

用的索引有两个，一个是基于user_id，另一个则是基于group_id 的。为什么基于group_id 的索引user_group_gid_ind 也被列为可选索引了呢？是因为与子查询的外层查询所关联的条件是基于group_id 的。当然，最后MySQL Query Optimizer 还是选择了使用基于user_id的索引user_group_uid_ind。

1.2. Profiling 的使用

要想优化一条Query，我们就需要清楚的知道这条Query 的性能瓶颈到底在哪里，是消耗的CPU计算太多，还是需要的的IO 操作太多？要想能够清楚的了解这些信息，通过Query Profiler 功能。

MySQL 的Query Profiler 是一个使用非常方便的Query 诊断分析工具，通过该工具可以获取一条Query 在整个执行过程中多种资源的消耗情况，如CPU，IO，IPC，SWAP 等，以及发生的PAGE FAULTS，CONTEXT SWITCHE 等等，同时还能得到该Query 执行过程中MySQL 所调用的各个函数在源文件中的位置。下面我们看看Query Profiler 的具体用法。

1、开启profiling 参数

> set profiling=1;

Query OK, 0 rows affected (0.00 sec)

通过执行“set profiling”命令，可以开启关闭Query Profiler 功能。

2、执行Query

... ...

> select status,count(*) from test_profiling groupbystatus;

5 rows in set (1.11 sec)

... ...

在开启Query Profiler 功能之后，MySQL 就会自动记录所有执行的Query 的profile 信息了。

3、获取系统中保存的所有Query 的profile 概要信息

>show profiles;

3 rows in set(0.00 sec)

通过执行“SHOW PROFILE” 命令获取当前系统中保存的多个Query 的profile 的概要信息。

4、针对单个Query 获取详细的profile 信息。

在获取到概要信息之后，我们就可以根据概要信息中的Query_ID 来获取某个Query 在执行过程中

详细的profile 信息了，具体操作如下：

> show profile cpu, block io for query6;

上面的例子中是获取CPU 和Block IO 的消耗，非常清晰，对于定位性能瓶颈非常适用。希望得到取其他的信息，都可以通过执行“SHOW PROFILE *** FOR QUERY n” 来获取。