Mysql进阶-索引篇（上）

索引（ index ）是帮助 MySQL 高效获取数据的数据结构 ( 有序 ) 。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引。可以简单理解为我们先排好特定的顺序再查找，查找速度会大大提高

演示：

表结构及其数据

假如我们要执行的SQL语句为： select * from user where age = 45;

无索引情况

相当于全表扫描，从第一行扫描到末尾，遇到满足条件的数据，仍会继续遍历下去，进而扫描全表，这相当于数组的遍历，时间复杂度很高，性能很差

有索引情况

如果我们针对于这张表建立了索引，假设索引结构就是二叉树，那么也就意味着，会对 age 这个字段建立一个二叉树的索引结构。即左子树的age值<根节点<右子树，可将数据范围划分为两个范围，变成类似二分查找的查找算法，极大提高搜索效率，而不用全局遍历。下图只需要比较三次就可以得到45

特点：

优势

提高数据检索的效率，降低数据库的IO 成本

通过索引列对数据进行排序，降低数据排序的成本，降低CPU的消耗（不用频繁低性能的查询数据）。

劣势

索引列也是要占用空间的。

索引大大提高了查询效率，同时却也降低更新表的速度，如对表进行INSERT 、 UPDATE 、 DELETE 时，效率降低，因为更新表的同时也要更新索引。

索引结构

MySQL的索引是在存储引擎层实现的，不同的存储引擎有不同的索引结构， MySQL 中所支持的所有的索引结构主要包含以下几种：

不同的存储引擎对于索引结构的支持情况， 我们平常所说的索引，如果没有特别指明，都是指B+树结构组织的索引。

数据结构

二叉树

MySQL 的索引结构采用二叉树的数据结构，比较理想的结构如下：

但如果主键是顺序插入的，那二叉树就会退化为单向链表，每次检索时都要遍历链表，检索效率大大降低

选择二叉树作为索引结构，会存在以下缺点：

顺序插入时，会形成一个链表，查询性能大大降低。

大数据量情况下，层级较深，检索速度慢

红黑树

由于二叉树会一直加深层级，我们可以想到红黑树作为自平衡的二叉树，能很好弥补这一缺点，那这样即使是顺序插入数据，最终形成的数据结构也是一颗平衡的二叉树,但由于红黑树也是一颗二叉树，也会出现层级较深的问题，结构如下:

B-Tree

B-Tree，B树是一种多叉路衡查找树，相对于二叉树，B树每个节点可以有多个分支，即多叉。以一颗最大度数（max-degree）为5(5阶)的b-tree为例，那这个B树每个节点最多存储4个key，5 个指针，比二叉树多了三个key，可以多走三个分支，即五个范围。树的度数就是一个节点的子节点的个数

进入b树的可视化演示网站，可以帮助我们理解b树的演变过程，这里选用的五阶b树B-Tree Visualization

插入900时，由于每个节点只能存储四个key，此时会进行裂变，将插入900之后，五个元素进行排序之后，选取中间元素作为父节点，以中间元素为分界线，分割为两个节点

特点：

5阶的B树，每一个节点最多存储4个key，对应5个指针。

一旦节点存储的key数量到达5，就会裂变，中间元素向上分裂。

在B树中，非叶子节点和叶子节点都会存放数据。

B+Tree

B+Tree是B-Tree的变种，我们以一颗最大度数（max-degree）为4（4阶）的b+tree为例，来看一下其结构示意图

绿色框框起来的部分，是索引部分，仅仅起到索引数据的作用，不存储数据。

红色框框起来的部分，是数据存储部分，在其叶子节点中要存储具体的数据

插入元素达到裂变的同时，叶子节点之间会形成一个单向链表，注意是传统的b+树就是形成单向链表

B+Tree 与 B-Tree相比，主要有以下三点区别：

所有的数据都会出现在叶子节点。

叶子节点形成一个单向链表。

非叶子节点仅仅起到索引数据作用，具体的数据都是在叶子节点存放的。

MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上，增加一个指向相邻叶子节点的链表指针，即是双向链表，这就形成了带有顺序指针的B+Tree，提高区间访问的性能，利于排序。

Hash

MySQL中除了支持B+Tree索引，还支持一种索引类型---Hash索引。

结构：

哈希索引就是采用一定的hash算法，将键值换算成新的hash值，映射到对应的槽位上，然后存储在 hash表中，如果有哈希冲突，就会形成一个单向链表，挂在槽位之后，类似于hashtable

哈希冲突的情况

特点：

A. Hash索引只能用于对等比较(=，in)，不支持范围查询（between，>，< ，...）

B. 无法利用索引完成排序操作

C. 查询效率高，通常(不存在hash冲突的情况)只需要一次检索就可以了，效率通常要高于B+tree索引

索引分类

MySQL 数据库，将索引的具体类型主要分为以下几类：主键索引、唯一索引、常规索引、全文索引。

分类	含义	特点	关键字
主键索引	针对于表中主键创建的索引	默认自动创建 , 只能有一个，因为主键只能有一个	PRIMARY
唯一索引	避免同一个表中某数据列中的值重复	可以有多个	UNIQUE
常规索引	快速定位特定数据，（例如手机验证码登录时，用手机号查询用户，这一场景下就可以定义手机号为常规索引）	可以有多个
全文索引	全文索引查找的是文本中的关键词，而不是比较索引中的值	可以有多个	FULLTEXT

聚集索引&二级索引

在InnoDB存储引擎中，根据索引的存储形式，又可以分为以下两种：

分类	含义	特点
聚集索引 (ClusteredIndex)	将数据存储与索引放到了一块，索引结构的叶子节点保存了行数据	必须有 , 而且只有一个
二级索引 (Secondary Index)	将数据与索引分开存储，索引结构的叶子节点关联的是对应的主键，而对应的主键索引就会指向真正的行数据	可以存在多个

聚集索引选取规则:

总之聚集索引是必须要有的，如果没有主键索引，就会采用唯一索引，如果二者都没有，就会随机生成

如果存在主键，主键索引就是聚集索引。

如果不存在主键，将使用第一个唯一（UNIQUE）索引作为聚集索引。

如果表没有主键，或没有合适的唯一索引，则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

具体结构

聚集索引的叶子节点下挂的是这一行的具体数据，相当于一级指针，直接指向数据本身。

二级索引的叶子节点下挂的是该字段值对应的主键值，即指向了聚集索引，相当于二级指针。

当我们用name这个二级索引查询数据时，具体的执行流程为：

① . 由于是根据 name 字段进行查询，所以先根据 name='Arm' 到 name 字段的 二级索引中进行匹配查找 。但是在二级索引中只能查找到 Arm 对应的主键值 10 。

② . 由于查询返回的数据是所有的行数据，所以此时，还需要根据主键值 10，到聚集索引中查找10 对应的记录，最终找到10 对应的行 row 。

③ . 最终拿到这一行的数据，直接返回即可。

这一流程也称为回表查询

先到二级索引中查找数据，找到主键值，然后再到聚集索引中根据主键值，获取

数据的方式，就称之为回表查询。

索引基础语法

创建索引

CREATE [ UNIQUE | FULLTEXT ] INDEX index_name ON table_name ( index_col_name,... ) ;

查看索引

SHOW INDEX FROM table_name ;

删除索引

DROP INDEX index_name ON table_name ;

创建一张表 tb_user，并且查询测试数据。

需求如下：

A.name字段为姓名字段，该字段的值可能会重复，为该字段创建索引

create index idx_user_name on tb_user(name)

B.phone手机号字段的值，是非空，且唯一的，为该字段创建唯一索引。

create unique index idx_user_phone on tb_user(phone);

C.为profession、age、status创建联合索引。

create index idx_user_pro_age_sta on tb_user(profession,age,status)

D.为email建立合适的索引来提升查询效率。

create index idx_user_email on tb_user(email);

查看建立的索引，索引的命名规范应为idx_表名_列名