滴滴面试总结之MySQL存储引擎以及索引原理

一、MySQL存储引擎：MySQL将数据用各种不同的技术存储在文件中，这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提供广泛的不同的功能和能力。这些不同的技术以及配套的相关功能在 mysql中被称作存储引擎(也称作表类型)。建表时，选择合适的存储引擎很重要，如果到后期再更换将会很麻烦。存储引擎是基于表的，而非数据库。

个人理解：存储引擎是某张表存储数据、如何为存储的数据建立索引和更新、查询数据库等技术的实现方法集合及约束。常见的存储引擎如下图：

这里，先总结常用的三种存储引擎：

1. MyISAM引擎：MyISAM引擎是MySQL默认的存储引擎，MyISAM不支持事务和行级锁，所以MyISAM引擎速度很快，性能优秀。MyISAM可以对整张表加锁，支持并发插入，支持全文索引。

缺点：不支持事务和行级锁，也不支持外键

优点：访问速度快，对事务的完整性没有要求或者以select、insert为主的应用基本上都可以使用这个引擎来创建

　　　 MyISAM再磁盘上存储成三个文件，其文件名都和表名相同，但扩展名分别是：.frm(存储表定义),.MYD(存储数据),.MYI(存储索引)这种引擎又可以分为静态MyISAM、动态MyISAM 和压缩MyISAM三种：

静态MyISAM：如果数据表中的各数据列的长度都是预先固定好的，服务器将自动选择这种表类型。因为数据表中每一条记录所占用的空间都是一样的，所以这种表存取和更新的效率非常高。当数据受损时，恢复工作也比较容易做。

动态MyISAM：如果数据表中出现varchar、xxxtext或xxxBLOB字段时，服务器将自动选择这种表类型。相对于静态MyISAM，这种表存储空间比较小，但由于每条记录的长度不一，所以多次修改数据后，数据表中的数据就可能离散的存储在内存中，进而导致执行效率下降。同时，内存中也可能会出现很多碎片。因此，这种类型的表要经常用optimize table 命令或优化工具来进行碎片整理。

压缩MyISAM：以上说到的两种类型的表都可以用myisamchk工具压缩。这种类型的表进一步减小了占用的存储，但是这种表压缩之后不能再被修改。另外，因为是压缩数据，所以这种表在读取的时候要先时行解压缩。

但是，不管是何种MyISAM表，目前它都不支持事务，行级锁和外键约束的功能。

（补充：锁

页级:引擎 BDB。

表级:引擎 MyISAM ，理解为锁住整个表，可以同时读，写不行

行级:引擎 INNODB ，单独的一行记录加锁

上述三种锁的特性可大致归纳如下：
1）表级锁：开销小，加锁快；不会出现死锁；锁定粒度大，发生锁冲突的概率最高，并发度最低。
2）行级锁：开销大，加锁慢；会出现死锁；锁定粒度最小，发生锁冲突的概率最低，并发度也最高。
3）页面锁：开销和加锁时间界于表锁和行锁之间；会出现死锁；锁定粒度界于表锁和行锁之间，并发度一般。

三种锁各有各的特点，若仅从锁的角度来说，表级锁更适合于以查询为主，只有少量按索引条件更新数据的应用，如WEB应用；行级锁更适合于有大量按索引条件并发更新少量不同数据，同时又有并发查询的应用，如一些在线事务处理（OLTP）系统。
-->MySQL表级锁有两种模式：表共享读锁（Table Read Lock）和表独占写锁（Table Write Lock）。就是说对MyISAM表进行读操作时，它不会阻塞其他用户对同一表的读请求，但会阻塞对同一表的写操作；而对MyISAM表的写操作，则会阻塞其他用户对同一表的读和写操作。当一个进程请求某个MyISAM表的读锁，同时另一个进程也请求同一表的写锁时，通常写进程优先获得锁。

-->InnoDB有两种模式的行锁：
1）共享锁：允许一个事务去读一行，阻止其他事务获得相同数据集的排他锁。
( Select * from table_name where ......lock in share mode)
2）排他锁：允许获得排他锁的事务更新数据，阻止其他事务取得相同数据集的共享读锁和排他写锁。(select * from table_name where.....for update)

★ InnoDB行锁是通过给索引项加锁来实现的，由于InnoDB预设是Row-Level Lock，所以只有「明确」的指定主键，MySQL才会执行Row lock (只锁住被选取的资料例) ，否则MySQL将会执行Table Lock (将整个资料表单给锁住)。

SELECT * FROM products WHERE id='3' FOR UPDATE; --row-level lock

SELECT * FROM products WHERE name='Mouse' FOR UPDATE; --table-level lock

★ 死锁产生的根本原因是两个以上的进程都要求对方释放资源，以至于进程都一直等待。在代码上是因为两个或者以上的事务都要求另一个释放资源。死锁产生的四个必要条件：互斥条件、环路条件、请求保持、不可剥夺，缺一不可，相对应的只要破坏其中一种条件死锁就不会产生。

）

2. InnoDB引擎：InnoDB是专为事务设计的存储引擎，支持事务，支持外键，拥有高并发处理能力。但是，InnoDB在创建索引和加载数据时，比MyISAM慢。

1.自动增长列：通过“alter table *** auto_increment = n”语句强制设置自动增长列的初始值，如果在使用之前重新启动数据库，则需要重新设置，不设置默认初始值为1.对于InnoDB表来说自动增长列必须是索引。如果是组合索引，也必须是组合索引的第一列，但是对于MyISAM表，自动增长列可以是组合索引的其他列，这样插入记录后，自动增长列按照组合索引前面几列进行排序后递增的。

2.外键约束：MySQL支持外键的存储引擎只有InnoDB，在创建外键的时候，要求父表必须有对应的索引，子表在创建外键的时候也会自动创建对应的索引。当某个表被其他表创建的外键参照，那么该表的对应索引或者主键禁止被删除。在导入多个表的数据时，如果需要忽略表之前的导入顺序，可以暂时关闭外键的检查，在处理LOAD DATA 和 ALTER TABLE操作的时候，可以关闭外键约束来加快处理速度，“set foreign_key_checks = 0(1开)”。对于InnoDB类型的表，外键信息通过使用show table status命令显示。

3.存储方式：InnoDB存储表和索引有以下两种方式。①.使用共享表空间存储，这种方式创建的表的表结构保存在.frm文件中，数据和索引保存在innodb_data_home_dir和innodb_data_file_path定义的表空间中，可以是多个文件。②.使用多表空间存储，这种方式创建的表的表结构仍然保存在.frm文件中，但是每个表的数据和索引单独保存在.ibd中。如果是分区表，则每个分区对应单独的.ibd文件，文件名是“表名+分区名”，可以在创建分区的时候指定每个分区的数据文件的位置，一次来将表的IO均匀的分布在多个磁盘上。要使用多表空间的存储方式，需要设置参数innodb_file_per_table，并且重启服务才能生效，对于新建的表按照多表空间的方式创建，已经有的仍然使用共享表空间存储。多表空间的数据文件没有大小限制，不需要设置初始化大小，也不需要设置文件的最大限制、扩展大小等参数。对于使用多表空间特性的表，可以比较方便地进行单表备份和恢复操作。

3. Memory引擎（采用哈希索引）：内存表，Memory引擎将数据存储在内存中，表结构不是存储在内存中的，查询时不需要执行磁盘I/O操作，所以要比MyISAM和InnoDB快很多倍，但是数据库断电或是重启后，表中的数据将会丢失，表结构不会丢失.

★ 如何选择存储引擎：
　　在选择存储引擎时，应根据应用特点选择合适的存储引擎。对于复杂的应用系统，还可以根据实际情况选择多种存储引擎进行组合。
MyISAM：默认的Mysql插件式存储引擎（5.5之前）。如果应用是以读操作和插入操作为主，只有少量的更新和删除操作，并且对事务的完整性、并发性要求不是很高，那么选择这个存储引擎非常合适。例如：Web、数据仓库和其他应用环境下最常用的存储引擎之一。

　　InnoDB：用于处理事务应用程序，支持外键。如果应用对事务的完整性有较高的要求，在并发条件下要求数据的一致性，数据除了插入查询之外，还包括很多的更新、删除操作，那么InnoDB存储引擎应该是比较合适的。InnoDB存储引擎除了有效的降低由于删除和更新导致的锁定，还可以确保事务的完整的提交和回滚，对于类似计费系统或者财务系统等对数据准确性要求比较高的系统，InnoDB都是合适的选择。

　　MEMORY：将所有的数据保存在RAM中，在需要快速定位记录和其他类似数据的环境下，可提供几块的访问，MEMORY的缺陷是对表的大小有限制，太大的表无法缓存在内存中，其次是要确保表的数据可以恢复，数据库异常终止后表中的数据数据是可以恢复的。MEMORY表通常更新不太频繁的小表，用以快速得到访问结果。

　MERGE：用于将一系列的MyISAM表以逻辑方式组合在一起，并作为一个对象引用它们。有点突破了单个MyISAM表大小的限制，并且通过将不同的表分布在多个磁盘上，可以有效地改善MERGE表的访问效率。这对于数据仓库等VLDB（超大型数据库）环境十分合适。

★ MySql中关于存储引擎的操作：

1. 用show engines; 命令可以显示当前数据库支持的存储引擎情况；

2. Show create table tablename; //显示表的创建语句；

3. show table status like ‘tablename’; //显示表的当前状态值;

4. 创建数据库表时设置存储存储引擎的基本语法是：

Create table tableName(

columnName(列名1) type(数据类型) attri(属性设置),

columnName(列名2) type(数据类型) attri(属性设置),

……..) engine = engineName

5. 修改存储引擎，可以用命令Alter table tableName engine =engineName

二、索引原理

1. 索引（在MySQL中也叫做键<key>），是存储引擎用于快速找到记录的一种数据结构。索引本身很大，不可能全部存储在内存中，因此索引以索引表的形式存储在磁盘中。

2. 理解索引也是进行数据库性能调优的起点。很多时候，当应用程序进行SQL查询速度很慢时，应该想想是否可以建索引。索引优化应该是对查询性能优化最有效的手段，索引能够轻易将查询性能提高几个数量级，”最优“的索引有时比一个”好的“索引性能要好两个数量级。创建一个真正”最优“的索引经常要重写查询。

3. 在mysql中，存储引擎用一本书的“索引”找到对应页码类似的方法使用索引，其先在索引中找到对应值，然后根据匹配的索引记录找到对应的数据行。索引可以包含一个或多个列的值。如果索引包含多个列，那么列的顺序也十分重要，因为MySQL只能高效地使用索引的最左前缀列，假设存在组合索引 idx_t1_c1_c2(c1,c2)，查询语句select * from t1 where c1=1 and c2=2能够使用该索引。查询语句select * from t1 where c1=1也能够使用该索引。但是，查询语句select * from t1 where c2=2不能够使用该索引，因为没有组合索引的引导列，即，要想使用c2列进行查找，必需出现c1等于某值。

4. 选择索引的数据类型：MySQL支持很多数据类型，选择合适的数据类型存储数据对性能有很大的影响。通常来说，可以遵循以下一些指导原则：

(1) 越小的数据类型通常更好：越小的数据类型通常在磁盘、内存和CPU缓存中都需要更少的空间，处理起来更快。

(2) 简单的数据类型更好：整型数据比起字符，处理开销更小，因为字符串的比较更复杂。在MySQL中，应该用内置的日期和时间数据类型，而不是用字符串来存储时间；以及用整型数据类型存储IP地址。

(3) 尽量避免NULL：应该指定列为NOT NULL，除非你想存储NULL。在MySQL中，含有空值的列很难进行查询优化，因为它们使得索引、索引的统计信息以及比较运算更加复杂。你应该用0、一个特殊的值或者一个空串代替空值。

5. 索引的类型：索引是在存储引擎中实现的，而不是在服务器层中实现的。所以，每种存储引擎的索引都不一定完全相同，并不是所有的存储引擎都支持所有的索引类型。

★ B-Tree索引：每一个叶子节点都包含指向下一个叶子节点的指针，从而方便叶子节点的范围遍历。B－Tree通常意味着所有的值都是按顺序存储的，并且每一个叶子页到根的距离相同，很适合查找范围数据。

★ B+树索引：并不能找到一个给定健值的具体行，B+树索引只能找到被查找数据行所在的页，然后从数据库将页读入内存，在内存中查找。B+树索引可以分为聚集索引和辅助索引。聚簇索引是按照数据存放的逻辑地址为顺序的，而非聚簇索引就不一样了；聚簇索引能提高多行检索的速度，而非聚簇索引对于单行的检索很快。

○ 聚集索引：聚集索引是一种索引组织形式，索引的键值逻辑顺序决定了表数据行的物理存储顺序。聚集索引对于那些经常要搜索范围值的列特别有效。使用聚集索引找到包含第一个值的行后，便可以确保包含后续索引值的行在物理相邻。

InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。

○ 辅助索引：叶结点的data域存放的是对应记录的主键的key。对于建立辅助索引的表需要先根据辅助索引找到相应的主键，再根据主键在聚集索引中找到相应的记录集。

○ 非聚集索引

非聚集索引则就是普通索引了，仅仅只是对数据列创建相应的索引，不影响整个表的物理存储顺序。主键索引中，叶节点的data域存放的是数据记录的地址，如果指定的Key存在，则取出其data域的值，然后以data域的值为地址，读取相应数据记录。（MYISAM采用此种索引方式）。

区别

聚集索引表里数据物理存储顺序和主键索引的顺序一致，所以如果新增数据是离散的，会导致数据块趋于离散，而不是趋于顺序。而非聚集索引表数据写入的顺序是按写入时间顺序存储的。聚簇索引索引的叶节点就是数据节点；而非聚簇索引的叶节点仍然是索引节点，只不过有一个指针指向对应的数据块。
适用情景

★ Hash索引：哈希索引基于哈希表实现，只有精确索引所有列的查询才有效。对于每一行数据，存储引擎都会对所有的索引列计算一个哈希码，哈希码是一个较小的值，并且不同键值的行计算出来的哈希码也不一样。哈希索引将所有的哈希存储在索引中，同时在哈希表中保存指向每个数据的指针。

哈希索引中存储的是：哈希值+数据行指针
MySQL中，只有Memory存储引擎显示支持hash索引，是Memory表的默认索引类型，尽管Memory表也可以使用B-Tree索引。Memory存储引擎支持非唯一hash索引，这在数据库领域是罕见的，如果多个值有相同的hash code，索引把它们的行指针用链表保存到同一个hash表项中。

索引有如下优点与缺点：

★ 优点
1.可以通过建立唯一索引或者主键索引,保证数据库表中每一行数据的唯一性
2.建立索引可以大大提高检索的数据,以及减少表的检索行数
3.在表连接的连接条件，可以加速表与表直接的相连
4.在分组和排序字句进行数据检索,可以减少查询时间中分组和排序时所消耗的时间(数据库的记录会重新排序)
5.建立索引,在查询中使用索引，可以提高性能

--索引大大减小了服务器需要扫描的数据量
--索引可以帮助服务器避免排序和临时表
--索引可以将随机IO变成顺序IO
△ 缺点
1.创建索引和维护索引会耗费时间,随着数据量的增加而增加
2.索引文件会占用物理空间,除了数据表需要占用物理空间之外,每一个索引还会占用一定的物理空间
3.当对表的数据进行 INSERT,UPDATE,DELETE 的时候,索引也要动态的维护,这样就会降低数据的维护速度,(建立索引会占用磁盘空间的索引文件。一般情况这个问题不太严重，但如果你在一个大表上创建了多种组合索引，索引文件的会膨胀很快)。

索引的使用：最好的做法是创建表的时候创建索引，如果创建表之后再修改新建索引的话，对于聚集索引，会根据原来的表，创建一个新的表带有索引数据结构，再把原来的表删去，新创建的表改成原来的表的名字。而非聚集索引则是通过修改索引文件来完成。所以都是需要占用额外的资源来修改或新建索引的。

①. 普通索引：

# 创建表的同时创建索引

CREATE TABLE `artical` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`subject` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`title` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL,
`time` Date NULL DEFAULT NULL,
PRIMARY KEY(`id`),
INDEX index_subject (subject)
);

# 直接创建索引
CREATE INDEX <index_name> ON <table_name>(<column_name>);
# 修改表结构的方式添加索引
ALTER TABLE <table_name> ADD INDEX index_name (<column_name>);

②. 唯一索引
与普通索引的不同的是，索引列的值必须唯一，但允许有空值。如果是组合索引，则列值的组合必须唯一。
# 创建表的时候直接指定
CREATE TABLE `user` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` char(50) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`tel` char(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
PRIMARY KEY(`id`),
UNIQUE index_subject (name)
);
# 直接创建索引
CREATE UNIQUE INDEX <index_name> ON <table_name>(<column_name>);
# 修改表结构的方式添加索引
ALTER TABLE <table_name> ADD UNIQUE index_name (<column_name>);

③. 主键索引
索引值必须唯一，不能为NULL，在B+TREE中的InnoDB引擎中,主键索引起到了至关重要的地位。
④. 全文索引
MySQL从3.23.23版开始支持全文索引和全文检索，FULLTEXT索引仅可用于 MyISAM 表；他们可以从CHAR、VARCHAR或TEXT列中作为CREATE TABLE语句的一部分被创建，或是随后使用ALTER TABLE 或CREATE INDEX被添加。
# 创建表的时候添加全文索引
CREATE TABLE `artical` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`subject` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`title` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL,
`time` Date NULL DEFAULT NULL,
PRIMARY KEY(`id`),
FULLTEXT (content)
)engine=MyISAM;
# 修改表结构添加全文索引
ALTER TABLE artical ADD FULLTEXT INDEX index_content(content);
# 直接创建索引
CREATE FULLTEXT INDEX index_content ON artical(content);
⑤. 单列索引，多列索引
多个单列索引与单个多列索引的查询效果不同，因为执行查询时，MySQL只能使用一个索引，会从多个索引中选择一个限制最为严格的索引。
⑥. 组合索引
平时用的SQL查询语句一般都有比较多的限制条件，所以为了进一步榨取MySQL的效率，就要考虑建立组合索引。例如上表中针对title和time建立一个组合索引：ALTER TABLE article ADD INDEX index_titme_time (subject,title(50),time(10))，实际上包含三个索引(subject),(subject, title), (subject, title, time)。
在使用查询的时候遵循“最左前缀”：不按索引最左列开始查询不适用索引。例如对idnex(c1,c2,c3),使用where c2 = “aaa” and c3 = “bbb”不能使用索引
查询中某个列有范围查询，则其右边的所有列都无法使用查询。例如对idnex(c1,c2,c3)，where c1 = “xxx” and c2 like = “aa%” and c3 = “sss”查询只会使用索引的前两列，因为like是范围查询不能跳过某个字段进行查询。

参考文章：

http://blog.csdn.net/xifeijian/article/details/20312557

http://lib.csdn.net/article/14/5629?knId=381

http://lib.csdn.net/article/14/45169?knId=383

http://lib.csdn.net/base/mysql

http://blog.csdn.net/u014496330/article/details/53056271

http://blog.csdn.net/xifeijian/article/details/20312557

http://blog.sina.com.cn/s/blog_4e0c21cc01010itp.html

http://www.codeweblog.com/category/mysql/

http://www.codeweblog.com/mysql5-0%E5%AD%98%E5%82%A8%E8%BF%87%E7%A8%8B%E6%95%99%E7%A8%8B/

《高性能MySQL》读书笔记－－Schema与数据类型优化 http://lib.csdn.net/article/14/45169?knId=383

滴滴面试总结之MySQL存储引擎以及索引原理

猜你喜欢