PHP面试必备 | MySQL 索引使用策略及优化

MySQL 的优化主要分为结构优化（Scheme optimization）和查询优化（Query optimization）。

本文讨论的高性能索引策略主要属于结构优化范畴。本文的内容完全基于上文的理论基础，实际上一旦理解了索引背后的机制，那么选择高性能的策略就变成了纯粹的推理，并且可以理解这些策略背后的逻辑。

一、示例数据库

为了讨论索引策略，需要一个数据量不算小的数据库作为示例。本文选用 MySQL 官方文档中提供的示例数据库之一：employees。这个数据库关系复杂度适中，且数据量较大。下图是这个数据库的 E-R 关系图（引用自 MySQL 官方手册）：

在这里插入图片描述

二、最左前缀原理与相关优化

高效使用索引的首要条件是知道什么样的查询会使用到索引，这个问题和 B+Tree 中的 “最左前缀原理” 有关，下面通过例子说明最左前缀原理。

这里先说一下联合索引的概念。在上文中，我们都是假设索引只引用了单个的列，实际上，MySQL 中的索引可以以一定顺序引用多个列，这种索引叫做联合索引。

一般的，一个联合索引是一个有序元组 <a1, a2, …, an>，其中各个元素均为数据表的一列，实际上要严格定义索引需要用到关系代数，但是这里我不想讨论太多关系代数的话题，因为那样会显得很枯燥，所以这里就不再做严格定义。另外，单列索引可以看成联合索引元素数为 1 的特例。

以 employees.titles 表为例，下面先查看其上都有哪些索引：

在这里插入图片描述

三、EXPLAIN

在日常工作中，我们会有时会开慢查询去记录一些执行时间比较久的 SQL 语句，找出这些 SQL 语句并不意味着完事了，些时我们常常用到 explain 这个命令来查看一个这些 SQL 语句的执行计划，查看该 SQL 语句有没有使用上了索引，有没有做全表扫描，这都可以通过 explain 命令来查看。

所以我们深入了解 MySQL 的基于开销的优化器，还可以获得很多可能被优化器考虑到的访问策略的细节，以及当运行 SQL 语句时哪种策略预计会被优化器采用。

EXPLAIN 出来的信息有 10 列，分别是 id、select_type、table、type、possible_keys、key、key_len、ref、rows、Extra

概要描述：

id: 选择标识符
select_type: 表示查询的类型。
table: 输出结果集的表
type: 表示表的连接类型

all（全表扫描）、index（按照索引顺序的全表扫描）、range (有范围的索引扫描)
req (查找条件列使用了索引而且不为主键和unique, 使用该索引列的值并不唯一)、ref_eq（使用了主键或者唯一性索引进行查找的情况）、
const（主键放置到 where后面作为条件查询，mysql 优化器就能把这次查询优化转化为一个常量）

possible_keys: 表示查询时，可能使用的索引
key: 表示实际使用的索引
key_len: 索引字段的长度
ref: 列与索引的比较
rows: 扫描出的行数 (估算的行数)
Extra: 执行情况的描述和说明

四、具体内容

情况一：全列匹配

在这里插入图片描述

explain SELECT * FROM employees.titles WHERE emp_no='10001' AND title = 'Senior Engineer' AND from_date='1986-06-26';

很明显，当按照索引中所有列进行精确匹配（这里精确匹配指 “=” 或 “IN” 匹配）时，索引可以被用到。这里有一点需要注意，理论上索引对顺序是敏感的，但是由于 MySQL 的查询优化器会自动调整 where 子句的条件顺序以使用适合的索引，例如我们将 where 中的条件顺序颠倒效果是一样的。

情况二：最左前缀匹配

在这里插入图片描述

EXPLAIN SELECT * FROM employees.titles WHERE emp_no='10001';

当查询条件精确匹配索引的左边连续一个或几个列时，如或 <emp_no, title>，所以可以被用到，但是只能用到一部分，即条件所组成的最左前缀。上面的查询从分析结果看用到了 PRIMARY 索引，但是 key_len 为 4，说明只用到了索引的第一列前缀。

情况三：查询条件用到了索引中列的精确匹配，但是中间某个条件未提供

在这里插入图片描述

EXPLAIN SELECT * FROM employees.titles WHERE emp_no='10001' AND from_date='1986-0626';

此时索引使用情况和情况二相同，因为 title 未提供，所以查询只用到了索引的第一列，而后面的 from_date 虽然也在索引中，但是由于 title 不存在而无法和左前缀连接，因此需要对结果进行扫描过滤 from_date（这里由于 emp_no 唯一，所以不存在扫描）。

如果想让 from_date 也使用索引而不是 where 过滤，可以增加一个辅助索引 <emp_no, from_date>，此时上面的查询会使用这个索引。除此之外，还可以使用一种称之为 “隔离列” 的优化方法，将 emp_no 与 from_date 之间的 “坑” 填上。

首先我们看下 title 一共有几种不同的值：

MySQL 索引使用策略及优化

只有 7 种。在这种成为 “坑” 的列值比较少的情况下，可以考虑用 “IN” 来填补这个 “坑” 从而形成最左前缀：

在这里插入图片描述

这次 key_len 为 56，说明索引被用全了，但是从 type 和 rows 看出 IN 实际上执行了一个 range 查询，这里检查了 7 个 key。

“填坑” 后性能提升了一点。如果经过 emp_no 筛选后余下很多数据，则后者性能优势会更加明显。当然，如果 title 的值很多，用填坑就不合适了，必须建立辅助索引。

情况四：查询条件没有指定索引第一列

在这里插入图片描述

由于不是最左前缀，索引这样的查询显然用不到索引。

情况五：匹配某列的前缀字符串

在这里插入图片描述

此时可以用到索引，但是如果通配符不是只出现在末尾，则无法使用索引。（原文表述有误，如果通配符 % 不出现在开头，则可以用到索引，但根据具体情况不同可能只会用其中一个前缀）

情况六：范围查询

在这里插入图片描述

范围列可以用到索引（必须是最左前缀），但是范围列后面的列无法用到索引。同时，索引最多用于一个范围列，因此如果查询条件中有两个范围列则无法全用到索引。

在这里插入图片描述

可以看到索引对第二个范围索引无能为力。这里特别要说明 MySQL 一个有意思的地方，那就是仅用 explain 可能无法区分范围索引和多值匹配，因为在 type 中这两者都显示为 range。同时，用了 “between” 并不意味着就是范围查询，例如下面的查询：

在这里插入图片描述

看起来是用了两个范围查询，但作用于 emp_no 上的 “BETWEEN” 实际上相当于 “IN”，也就是说 emp_no 实际是多值精确匹配。可以看到这个查询用到了索引全部三个列。因此在 MySQL 中要谨慎地区分多值匹配和范围匹配，否则会对 MySQL 的行为产生困惑。

情况七、索引选择性与前缀索引

既然索引可以加快查询速度，那么是不是只要是查询语句需要，就建上索引？答案是否定的。因为索引虽然加快了查询速度，但索引也是有代价的：索引文件本身要消耗存储空间，同时索引会加重插入、删除和修改记录时的负担，另外，MySQL 在运行时也要消耗资源维护索引，因此索引并不是越多越好。一般两种情况下不建议建索引。

第一种情况是表记录比较少，例如一两千条甚至只有几百条记录的表，没必要建索引，让查询做全表扫描就好了。至于多少条记录才算多，这个个人有个人的看法，我个人的经验是以 2000 作为分界线，记录数不超过 2000 可以考虑不建索引，超过 2000 条可以酌情考虑索引。

另一种不建议建索引的情况是索引的选择性较低。所谓索引的选择性（Selectivity），是指不重复的索引值（也叫基数，Cardinality）与表记录数（#T）的比值：

Index Selectivity = Cardinality / #T

显然选择性的取值范围为 (0, 1]，选择性越高的索引价值越大，这是由 B+Tree 的性质决定的。例如，上文用到的 employees.titles 表，如果 title 字段经常被单独查询，是否需要建索引，我们看一下它的选择性：

在这里插入图片描述

title 的选择性不足 0.0001（精确值为 0.00001579），所以实在没有什么必要为其单独建索引。

有一种与索引选择性有关的索引优化策略叫做前缀索引，就是用列的前缀代替整个列作为索引 key，当前缀长度合适时，可以做到既使得前缀索引的选择性接近全列索引，同时因为索引 key 变短而减少了索引文件的大小和维护开销。下面以 employees.employees 表为例介绍前缀索引的选择和使用。

从示例数据库图可以看到 employees 表只有一个索引，那么如果我们想按名字搜索一个人，就只能全表扫描了，如果频繁按名字搜索员工，这样显然效率很低，因此我们可以考虑建索引。有两种选择，建或 <first_name, last_name>，看下两个索引的选择性：

在这里插入图片描述

显然选择性太低，选择性很好，但是 first_name 和 last_name 加起来长度为 30，有没有兼顾长度和选择性的办法？ >> 可以考虑用 first_name 和 last_name 的前几个字符建立索引，例如，看看其选择性：

MySQL 索引使用策略及优化

这时选择性已经很理想了，而这个索引的长度只有 18，比短了接近一半，我们把这个前缀索引建上：ALTER TABLE employees.employees ADD INDEX `first_name_last_name4 `(first_name, last_name (4));此时再执行一遍按名字查询，比较分析一下与建索引前的结果：性能的提升是显著的，查询速度提高了 120 多倍。

前缀索引兼顾索引大小和查询速度，但是其缺点是不能用于 ORDER BY 和 GROUP BY 操作，也不能用于 Covering index（即当索引本身包含查询所需全部数据时，不再访问数据文件本身）。

点关注，不迷路

好了各位，以上就是这篇文章的全部内容了，能看到这里的人呀，都是人才。之前说过，PHP方面的技术点很多，也是因为太多了，实在是写不过来，写过来了大家也不会看的太多，所以我这里把它整理成了PDF和文档，如果有需要的可以

点击进入暗号: PHP+「平台」

在这里插入图片描述

以上内容希望帮助到大家，很多PHPer在进阶的时候总会遇到一些问题和瓶颈，业务代码写多了没有方向感，不知道该从那里入手去提升，对此我整理了一些资料，包括但不限于：分布式架构、高可扩展、高性能、高并发、服务器性能调优、TP6，laravel，YII2，Redis，Swoole、Swoft、Kafka、Mysql优化、shell脚本、Docker、微服务、Nginx等多个知识点高级进阶干货需要的可以免费分享给大家，需要的可以加入我的 PHP技术交流群