常见数据库优化技巧总结

一、索引

本文以mySQL为例。
使用索引是最常见的优化方式,在千万级数据库以下,索引能大幅度提升查询效率。
这里介绍一下索引使用的几个注意点。
先介绍一下几种常见的索引种类。
Primary key 主键索引(所有的主键都是主键索引,唯一,不为空)
Unique 唯一索引(设置为该索引后唯一)
Index 普通索引(仅表示该字段设置为索引)
Index (id,username) 联合索引(将多个字段设置为索引,同时查找这几个字段时触发索引)
Full text 全文索引

1、索引有“最左匹配原则”

在模糊查询中,如果出现左模糊和全模糊,则不会命中索引。
即左边有‘%’时,不命中索引。

//命中索引
SELECT id FROM user WHERE username LIKE "aa%";
//未命中索引
SELECT id FROM user WHERE username LIKE "%aa";
//未命中索引
SELECT id FROM user WHERE username LIKE "%aa%";

在联合索引中,左边的字段命中索引。
我们假设只设置了Index(id,username,iphone)的联合索引。
如果查询条件只出现了左边的的字段一样可以命中索引。
但如果左边的字段没出现,却出现了右边的字段则没有命中索引。

//名中索引
SELECT * FROM user WHERE id='001' AND username='tom' AND iphone='110';
//名中索引
SELECT * FROM user WHERE id='001' AND username='tom';
//名中索引
SELECT * FROM user WHERE id='001';
//未命中索引
SELECT * FROM user WHERE username='tom' AND iphone='110';
//未命中索引
SELECT * FROM user WHERE id='001' AND iphone='110';
//未命中索引
SELECT * FROM user WHERE iphone='110';

2、其他无法命中索引的操作

WHERE子句中对字段进行表达式操作,函数操作等操作时无法名中索引

//未名中索引
SELECT id FROM user WHERE number/2 = 100;
//未名中索引
SELECT id FROM user WHERE substring(name,1,3) = 'abc';
//将运算放在‘=’右边后,命中索引
SELECT id FROM user WHERE number = 100*2;

使用OR连接条件时,若其中一个条件未设置索引则不会命中索引。

//如果id和phone中有一个未设置索引,则不命中索引。
SELECT * FROM user WHERE id='001' OR phone='110';

判断一个字段是否不为NULL时,不会命中索引。
判断一个字段是否为NULL时,命中索引

//未命中索引
SELECT id FROM user WHERE phone IS NOT NULL;
//命中索引
SELECT id FROM user WHERE phone IS NULL;

使用NOT IN时不会命中索引

//未命中索引
SELECT * FROM user WHERE id NOT IN(1,2,3);
//命中索引
SELECT * FROM user WHERE id IN(1,2,3);

索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert 及 update 的效率,因为 insert 或 update 时有可能会重建索引。
推荐一篇不错的数据库优化博客。
数据库SQL优化大总结1之- 百万级数据库优化方案

二、exists和in的选择

经常听到一些说法,说in的效率没有exists高,应该用exists替换掉in子句。但实际上并不是这样的,我们应该根据实际情况进行选择。
我们假设一个情况,一张学生表student和一张寝室表dorm。
假设我们要查找所有寝室在A区的学生id,这里section字段未设置索引。

select id from student where dorm_id in (select id from dorm where section='A');
select id from student where exists(select null from dorm where id=dorm_id and section='A');

看上面两个sql语句,做同一件事,一个使用的是in一个使用exists。
第一条语句中,外表可以使用了dorm _id的索引,内表没使用索引。
第二条语句中,外表没有使用索引,内表可以使用id的索引。
因此,当内表很大时,第一条语句没有使用索引效率低下,第二条语句使用索引就可以提高效率。
而当内表不大,反而外表很大时,第一条语句就具有优势。
所有,使用exists时,就是在内表使用索引。使用in时,就是在外表使用索引。
总结:IN适合于外表大而内表小的情况;EXISTS适合于外表小而内表大的情况。
详细请看这篇博客。
Exists和in的效率哪个高

三、分库分表

当数据库数据达到千万级开始,索引的作用就越来越差了,为了提高效率,程序员们想到了拆分数据的方法。

1、水平分表

当一个表数据过多时,查询效率自然变慢,为了提高查询效率我们可以将表A拆分成表A1,A2,A3…字段都是一样的,将数据以一定规律均匀分布在多个表中,提高数据库操作效率。

2、垂直分表

垂直分表是指,有些表字段很多,我们可以将一些不常用的,比较长的字段拆分出来,做成一个新表,即‘大表拆小表’,便于开发与维护。

分表说到底还是在一个数据库中操作,没有解决数据库连接不够的问题,数据库瓶颈依然存在,因此我们进行分库操作。

3、水平分库

水平分库,就是不将所有的表放在一个数据库中,比如好友模块的表放在一个数据库中,另一些交易模块的表放在另一个数据库中。这样就实现了高内聚低耦合,现如今的微服务框架就是水平分库的应用。

4、垂直分库

垂直分库其实就是集群的概念,将数据库A拆分成A1,A2,A3…里面的构造都是一样的,只把数据均匀分散在多个数据库中,以提高数据库操作效率。

同时分库分表也会带来很多新的问题,比如说事务变得更加复杂,全局主键避免重复等等。

详细请看这篇博客。
数据库分库分表思路
(未完待续)

猜你喜欢

转载自blog.csdn.net/qq_42068856/article/details/86705814