读《MySQL性能调优与架构设计》笔记之充分利用 Explain和Profiling

1.1. Explain 的使用

    我们先看一下在MySQL Explain 功能中给我们展示的各种信息的解释:

    ◆ ID:MySQL Query Optimizer选定的执行计划中查询的序列号。表示查询中执行select子句或操作表的顺序,id值越大优先级越高,越先被执行。id相同,执行顺序由上至下。

    ◆ Select_type:所使用的查询类型,主要有以下这几种查询类型

        ◇DEPENDENT SUBQUERY:子查询中内层的第一个SELECT,依赖于外部查询的结果集;

Dependent Subquery意味着什么


它的执行计划如下,请注意看关键词“DEPENDENT SUBQUERY”:


官方含义为:

SUBQUERY:子查询中的第一个SELECT;

DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外面的查询 。

换句话说,就是 子查询对 g2 的查询方式依赖于外层 g1 的查询。

什么意思呢?它意味着两步:

第一步,MySQL 根据 select gid,count(id) from shop_goods where status=0 group by gid; 得到一个大结果集 t1,其数据量就是上图中的 rows=850672 了。

第二步,上面的大结果集 t1 中的每一条记录,都将与子查询 SQL 组成新的查询语句:

select gid from shop_goods where sid in (15...blabla..29) and gid=%t1.gid%。

等于说,子查询要执行85万次……即使这两步查询都用到了索引,但不慢才怪。

如此一来,子查询的执行效率居然受制于外层查询的记录数,那还不如拆成两个独立查询顺序执行呢。

你不想拆成两个独立查询的话,也可以与临时表联表查询,如下所示:


也能得到同样的结果,且是毫秒级。

它的执行计划为:


DERIVED 的官方含义为:

DERIVED:用于 from 子句里有子查询的情况。MySQL 会递归执行这些子查询,把结果放在临时表里。

mysql 在处理子查询时,会改写子查询。

通常情况下,我们希望由内到外,先完成子查询的结果,然后再用子查询来驱动外查询的表,完成查询。

例如:

select * from test where tid in(select fk_tid from sub_test where gid=10)

通常我们会感性地认为该 sql 的执行顺序是:

sub_test 表中根据 gid 取得 fk_tid(2,3,4,5,6)记录,

然后再到 test 中,带入 tid=2,3,4,5,6,取得查询数据。

但是实际mysql的处理方式为:

select * from test where exists (

select * from sub_test where gid=10 and sub_test.fk_tid=test.tid

)

mysql 将会扫描 test 中所有数据,每条数据都将会传到子查询中与 sub_test 关联,子查询不会先被执行,所以如果 test 表很大的话,那么性能上将会出现问题。

 

        ◇ DEPENDENT UNION:子查询中的UNION,且为UNION中从第二个                   SELECT 开始的后面所有SELECT,同样依赖于外部查询的结果集;

        ◇ PRIMARY:子查询中的最外层查询,注意并不是主键查询;

        ◇ SIMPLE:除子查询或者UNION之外的其他查询;

        ◇ SUBQUERY:子查询内层查询的第一个SELECT,结果不依赖于外部查询结果集;

        ◇ UNCACHEABLE SUBQUERY:结果集无法缓存的子查询;

        ◇ UNION:UNION语句中第二个SELECT 开始的后面所有SELECT,第一个SELECT 为PRIMARY

        ◇ UNION RESULT:UNION中的合并结果;

    ◆ Table:显示这一步所访问的数据库中的表的名称;

    ◆ Type:告诉我们对表所使用的访问方式,主要包含如下集中类型;

        ◇ all:全表扫描

        ◇ const:读常量,且最多只会有一条记录匹配,由于是常量,所以实际上只需要读一次;

        ◇ eq_ref:最多只会有一条匹配结果,一般是通过主键或者唯一键索引来访问;

        ◇ fulltext:

        ◇ index:全索引扫描;

        ◇ index_merge:查询中同时使用两个(或更多)索引,然后对索引结果进行merge 之后再读取表数据;

        ◇ index_subquery:子查询中的返回结果字段组合是一个索引(或索引组合),但不是一个主键或者唯一索引;

        ◇ rang:索引范围扫描;

        ◇ ref:Join语句中被驱动表索引引用查询;

        ◇ ref_or_null:与ref的唯一区别就是在使用索引引用查询之外再增加一个空值的查询;

        ◇ system:系统表,表中只有一行数据;

        ◇ unique_subquery:子查询中的返回结果字段组合是主键或者唯一约束;

    ◆ Possible_keys:该查询可以利用的索引. 如果没有任何索引可以使用,就会显示成null,这一项内容对于优化时候索引的调整非常重要;

    ◆ Key:MySQLQuery Optimizer 从possible_keys 中所选择使用的索引;

    ◆ Key_len:被选中使用索引的索引键长度;

    ◆ Ref:列出是通过常量(const),还是某个表的某个字段(如果是join)来过滤(通过key)的;

    ◆ Rows:MySQLQuery Optimizer 通过系统收集到的统计信息估算出来的结果集记录条数;

    ◆ Extra:查询中每一步实现的额外细节信息,主要可能会是以下内容:

        ◇ Distinct:查找distinct值,所以当mysql 找到了第一条匹配的结果后,将停止该值的查询而转为后面其他值的查询;

        ◇ Full scan on NULL key:子查询中的一种优化方式,主要在遇到无法通过索引访问null值的使用使用;

        ◇ Impossible WHERE noticedafter reading const tables:MySQL Query Optimizer 通过收集到的统计信息判断出不可能存在结果;

        ◇ No tables:Query语句中使用FROM DUAL 或者不包含任何FROM 子句;

        ◇ Not exists:在某些左连接中MySQLQuery Optimizer 所通过改变原有Query 的组成而使用的优化方法,可以部分减少数据访问次数;

        ◇ Range checked for eachrecord (index map: N):通过MySQL 官方手册的描述,当MySQL Query Optimizer 没有发现好的可以使用的索引的时候,如果发现如果来自前面的表的列值已知,可能部分索引可以使用。对前面的表的每个行组合,MySQL 检查是否可以使用range 或index_merge 访问方法来索取行。

        ◇ Select tables optimizedaway:当我们使用某些聚合函数来访问存在索引的某个字段的时候,MySQL Query Optimizer 会通过索引而直接一次定位到所需的数据行完成整个查询。当然,前提是在Query 中不能有GROUP BY 操作。如使用MIN()或者MAX()的时候;

        ◇ Using filesort:当我们的Query中包含ORDER BY 操作,而且无法利用索引完成排序操作的时候,MySQL Query Optimizer 不得不选择相应的排序算法来实现。

        ◇ Using index:所需要的数据只需要在Index即可全部获得而不需要再到表中取数据;

        ◇ Using index for group-by:数据访问和Usingindex 一样,所需数据只需要读取索引即可,而当Query 中使用了GROUP BY 或者DISTINCT 子句的时候,如果分组字段也在索引中,Extra 中的信息就会是Using index for group-by;

        ◇ Using temporary:当MySQL在某些操作中必须使用临时表的时候,在Extra 信息中就会出现Using temporary 。主要常见于GROUP BY 和ORDER BY 等操作中。

        ◇ Using where:如果我们不是读取表的所有数据,或者不是仅仅通过索引就可以获取所有需要的数据,则会出现Using where 信息;

        ◇ Using where with pushedcondition:这是一个仅仅在NDBCluster 存储引擎中才会出现的信息,而且还需要通过打开Condition Pushdown 优化功能才可能会被使用。控制参数为engine_condition_pushdown 。

    这里我们通过分析示例来看一下不同的Query 语句通过Explain 所显示的不同信息:

    我们先看一个简单的单表Query:

    > explain select count(*),max(id),min(id) from user\G

********************1. row ***************************

id:              1

select_type:   SIMPLE

table:          NULL

type:            NULL

possible_keys:NULL

key:             NULL

key_len:        NULL

ref:             NULL

rows:           NULL

Extra:          Select tables optimized away

    对user 表的单表查询,查询类型为SIMPLE,因为既没有UNION 也不是子查询。聚合函数MAX MIN以及COUNT 三者所需要的数据都可以通过索引就能够直接定位得到数据,所以整个实现的Extra 信息为Select tables optimized away。

    再来看一个稍微复杂一点的Query,一个子查询:

> explain select name from groups where id in

( select group_id from user_group whereuser_id = 1)\G

*********************** 1.row *************************

id:               1

select_type:    PRIMARY

table:           groups

type:            ALL

possible_keys:NULL

key:             NULL

key_len:        NULL

ref:             NULL

rows:            50000

Extra:           Using where

************************2. row *************************

id:              2

select_type:   DEPENDENT SUBQUERY

table:          user_group

type:           ref

possible_keys:user_group_gid_ind,user_group_uid_ind

key:            user_group_uid_ind

key_len:       4

ref:            const

rows:           1

Extra:          Using where

    通过id 信息我们可以得知MySQL Query Optimizer 给出的执行计划是首先对groups进行全表扫描,然后第二步才访问user_group 表,所使用的查询方式是DEPENDENT SUBQUERY,对所需数据的访问方式是索引扫描,由于过滤条件是一个整数,所以索引扫描的类型为ref,过滤条件是const。可以使

用的索引有两个,一个是基于user_id,另一个则是基于group_id 的。为什么基于group_id 的索引user_group_gid_ind 也被列为可选索引了呢?是因为与子查询的外层查询所关联的条件是基于group_id 的。当然,最后MySQL Query Optimizer 还是选择了使用基于user_id的索引user_group_uid_ind。

1.2. Profiling 的使用

    要想优化一条Query,我们就需要清楚的知道这条Query 的性能瓶颈到底在哪里,是消耗的CPU计算太多,还是需要的的IO 操作太多?要想能够清楚的了解这些信息,通过Query Profiler 功能。

    MySQL 的Query Profiler 是一个使用非常方便的Query 诊断分析工具,通过该工具可以获取一条Query 在整个执行过程中多种资源的消耗情况,如CPU,IO,IPC,SWAP 等,以及发生的PAGE FAULTS,CONTEXT SWITCHE 等等,同时还能得到该Query 执行过程中MySQL 所调用的各个函数在源文件中的位置。下面我们看看Query Profiler 的具体用法。

    1、开启profiling 参数

> set profiling=1;

Query OK, 0 rows affected (0.00 sec)

    通过执行“set profiling”命令,可以开启关闭Query Profiler 功能。

    2、执行Query

      ... ...

    > select status,count(*) from test_profiling groupbystatus;


5 rows in set (1.11 sec)

... ...

    在开启Query Profiler 功能之后,MySQL 就会自动记录所有执行的Query 的profile 信息了。

    3、获取系统中保存的所有Query 的profile 概要信息

    >show profiles;


3 rows in set(0.00 sec)

    通过执行“SHOW PROFILE” 命令获取当前系统中保存的多个Query 的profile 的概要信息。

    4、针对单个Query 获取详细的profile 信息。

    在获取到概要信息之后,我们就可以根据概要信息中的Query_ID 来获取某个Query 在执行过程中

    详细的profile 信息了,具体操作如下:

    > show profile cpu, block io for query6;


    上面的例子中是获取CPU 和Block IO 的消耗,非常清晰,对于定位性能瓶颈非常适用。希望得到取其他的信息,都可以通过执行“SHOW PROFILE *** FOR QUERY n” 来获取。

猜你喜欢

转载自blog.csdn.net/lihuayong/article/details/42836889