性能优化专题 - MySql 性能优化 - 04 - MySql调优

前言

性能优化专题共计四个部分，分别是：

Tomcat 性能优化
MySql 性能优化
JVM 性能优化
性能测试

本节是性能优化专题第二部分 —— MySql 性能优化篇，共计四个小节，分别是：

本节重点：

➢ MVCC + Undo Log，解决幻读
➢ Redo Log的落盘配置
➢ 如何寻找MySQL配置文件
➢ MySQL内存参数如何配置
➢ MySQL数据库设计三大范式

Undo-log与Redo-log

回顾上一小节末尾的SQL案例，似乎是MVCC没有解决幻读问题，实际上MySQL还有Undo-log机制用来处理幻读。默认的Innodb在REPEATABLE READ隔离级别下,是如何通过MVCC + Undo Log，解决幻读的呢？

Undo Log ：Undo log指事务开始之前，在操作任何数据之前,首先将需操作的数据备份到一个地方 (Undo Log)

undo意为取消，以撤销操作为目的，返回指定某个状态的操作

UndoLog是为了实现事务的原子性而出现的产物

事务处理过程中如果出现了错误或者用户执行了 ROLLBACK语句,MySQL可以利用Undo Log中的备份将数据恢复到事务开始之前的状态

Undo Log在MySQL Innodb存储引擎中用来实现多版本并发控制

事务未提交之前，Undo保存了未提交之前的版本数据，Undo 中的数据可作为数据旧版本快照供其他并发事务进行快照读

案例

如下图

事务A 执行update之前，备份数旧数据 --> Undo buffer -->落地 Undo Log
事务B 此时查询的是Undo buffer中的内容（相当于读取的是快照，实现多版本并发控制）
事务A 若因意外rollback，会从Undo buffer中数据恢复（实现事务原子性）

在这里插入图片描述

当前读、快照读

快照读：

SQL读取的数据是快照版本，也就是历史版本，普通的SELECT就是快照读Innodb快照读，数据的读取将由 cache(原本数据) + undo(事务修改过的数据) 两部分组成

当前读：

SQL读取的数据是最新版本。通过锁机制来保证读取的数据无法通过其他事务进行修改
UPDATE、DELETE、INSERT、SELECT … LOCK IN SHARE MODE、SELECT … FOR UPDATE都是当前读

Redo Log的落盘配置

指定Redo log 记录在{datadir}/ib_logfile1&ib_logfile2 可通过innodb_log_group_home_dir 配置指定目录存储

mysql> show variables like "innodb_log_group_home_dir";
+---------------------------+-------+
| Variable_name             | Value |
+---------------------------+-------+
| innodb_log_group_home_dir | ./    |
+---------------------------+-------+
1 row in set (0.01 sec)

一旦事务成功提交且数据持久化落盘之后，此时Redo log中的对应事务数据记录就失去了意义，所以Redo log的写入是日志文件循环写入的

指定Redo log日志文件组中的数量 innodb_log_files_in_group 默认为2

mysql> show variables like "innodb_log_files_in_group";
+---------------------------+-------+
| Variable_name             | Value |
+---------------------------+-------+
| innodb_log_group_home_dir | 2     |
+---------------------------+-------+
1 row in set (0.01 sec)

指定Redo log每一个日志文件最大存储量innodb_log_file_size 默认48M

mysql> show variables like "innodb_log_files_in_group";
+---------------------------+--------+
| Variable_name             | Value  |
+---------------------------+--------+
| innodb_log_group_home_dir |10485760|
+---------------------------+--------+
1 row in set (0.01 sec)

指定Redo log在cache/buffer中的buffer池大小innodb_log_buffer_size 默认16M

mysql> show variables like "innodb_log_buffer_size";
+---------------------------+--------+
| Variable_name             | Value  |
+---------------------------+--------+
| innodb_log_group_home_dir |10485760|
+---------------------------+--------+
1 row in set (0.01 sec)

Redo buffer 持久化Redo log的策略Innodb_flush_log_at_trx_commit：

mysql> show variables like "Innodb_flush_log_at_trx_commit";
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_trx_commit | 0     |
+--------------------------------+-------+
1 row in set (0.01 sec)

取值 0 每秒提交 Redo buffer --> Redo log OS cache -->flush cache to disk[可能丢失一秒内的事务数据]
取值 1 默认值，每次事务提交执行Redo buffer --> Redo log OS cache --> flush cache to disk[最安全，性能最差的方式]
取值 2 每次事务提交执行Redo buffer --> Redo log OS cache 再每一秒执行 --> flush cache to disk操作

MySQL配置优化

MySQL服务器参数类型

基于参数的作用域：

set global autocommit = ON/OFF;
-- 全局参数

set session autocommit = ON/OFF;
-- 会话参数(会话参数不单独设置则会采用全局参数)

注意：

全局参数的设定对于已经存在的会话无法生效
会话参数的设定随着会话的销毁而失效
全局类的统一配置建议配置在默认配置文件中，否则重启服务会导致配置失效

快速定位MySql配置文件

假如刚进公司，boss丢了一个服务给你，让你去优化一下MySQL的配置，只需要执行命令

mysql --help
# 寻找配置文件的位置和加载顺序

这里给出一个通过管道过滤，干净地过滤掉其他信息，从而只保留MySql配置文件信息的命令：

mysql --help | grep -A 1 'Default options are read from the following files in the given order'

演示效果：

[root@localhost mysql]# mysql --help | grep -A 1 'Default options are read from the following files in the given order'
Default options are read from the following files in the given order:
/etc/my.cnf /etc/mysql/my.cnf /usr/local/mysql/etc/my.cnf ~/.my.cnf 
[root@localhost mysql]#

当然，如果记不住怎么多，只需要记住mysql --help 即可。

常见的全局配置文件配置

port = 3306
socket = /tmp/mysql.sock
basedir = /usr/local/mysql
datadir = /data/mysql
pid-file = /data/mysql/mysql.pid
user = mysql
bind-address = 0.0.0.0
max_connections=2000
lower_case_table_names = 0 #表名区分大小写
server-id = 1
tmp_table_size=16M
transaction_isolation = REPEATABLE-READ
ready_only=1

MySQL内存参数配置

每一个connection内存参数配置：

sort_buffer_size connection排序缓冲区大小
建议256K(默认值)-> 2M之内（若配置为2M）
当查询语句中有需要文件排序功能时，马上为connection分配配置的内存大小(2M)
join_buffer_size connection关联查询缓冲区大小
建议256K(默认值)-> 1M之内
当查询语句中有关联查询时，马上分配配置大小的内存用这个关联查询，所以有可能在一个查询语句中会分配很多个关联查询缓冲区

上述配置4000连接占用内存：

4000((256k/1024)M + (256K/1024)M) ~= 2G*

Innodb_buffer_pool_size
Innodb buffer/cache的大小（默认128M）

Innodb_buffer_pool

数据缓存
索引缓存
缓冲数据
内部结构

大的缓冲池可以减小多次磁盘I/O访问相同的表数据以提高性能
参考计算公式：

Innodb_buffer_pool_size = （总物理内存 - 系统运行所用 - connection 所用） 90%*

wait_timeout
服务器关闭非交互连接之前等待活动的秒数

innodb_open_files
限制Innodb能打开的表的个数

innodb_write_io_threads、innodb_read_io_threads
Innodb使用后台线程处理innodb缓冲区数据页上的读写 I/O(输入输出)请求

innodb_lock_wait_timeout
InnoDB事务在被回滚之前可以等待一个锁定的超时秒数

MySQL数据库表设计

数据库设计(Database Design)是指对于一个给定的应用环境，构造最优的数据库模式，建立数据库及其应用系统，使之能够有效地存储数据，满足各种用户的应用需求（信息要求和处理要求）。在数据库领域内，常常把使用数据库的各类系统统称为数据库应用系统。

三大范式

第一范式（ 1NF）：
字段具有原子性,不可再分。所有关系型数据库系统都满足第一范式）数据库表中的字段都是单一属性的，不可再分；

第二范式（ 2NF）：
要求实体的属性完全依赖于主键。所谓完全依赖是指不能存在仅依赖主键一部分的属性，如果存在，那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体，新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列，以存储各个实例的惟一标识。简而言之，第二范式就是属性完全依赖主键。

第三范式（ 3NF）：
满足第三范式（ 3NF）必须先满足第二范式（ 2NF）。简而言之，第三范式（ 3NF）要求一个数据库表中不包含已在其它表中已包含的非主键信息。

简单一点：

每一列只有一个单一的值，不可再拆分
每一行都有主键能进行区分
每一个表都不包含其他表已经包含的非主键信息。

数据库表设计

充分的满足第一范式设计将为表建立太量的列

数据从磁盘到缓冲区，缓冲区脏页到磁盘进行持久的过程中，列的数量过多会导致性能下降。过多的列影响转换和持久的性能

过分的满足第三范式化造成了太多的表关联

表的关联操作将带来额外的内存和性能开销

使用innodb引擎的外键关系进行数据的完整性保证

外键表中数据的修改会导致Innodb引擎对外键约束进行检查，就带来了额外的开销，一般数据库不用外键，外键逻辑在业务层控制

举个案例，想一想下面的SQL如何优化

SELECT
*
FROM
order
WHERE
(convert((price_full * 100 - price * 100) , SIGNED) - convert(coupon_price*100,SIGNED)
AND
is_del = 0)
ORDER BY
id
desc
limit 100

问题：在where条件，对索引列计算，会让索引失效，从而扫描全表。性能比较差

优化：（仅供参考）

假如(convert((price_full * 100 - price * 100) , SIGNED) - convert(coupon_price*100,SIGNED)没有优化的余地，那这条SQL无法拯救了嘛？

可以在该表添加一个列（成本列），把这个条件的运算结果在insert之前计算好结果（假设新增之后，price_full、price、coupon_price列不会频繁更新），放入表中。然后对添加的这个成本列和is_del 建一个联合索引。把查询消耗的时间成本转移到了新增，这也只是一个方案，实际还要看具体的业务场景。技术服务于业务。

附录 58同城军规

军规适用场景：并发量大、数据量大的互联网业务
军规：介绍内容
解读：讲解原因，解读比军规更重要

一、基础规范

必须使用InnoDB存储引擎
解读：支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高
必须使用UTF8字符集 UTF-8MB4
解读：万国码，无需转码，无乱码风险，节省空间
数据表、数据字段必须加入中文注释
解读：N年后谁tm知道这个r1,r2,r3字段是干嘛的
禁止使用存储过程、视图、触发器、Event
解读：高并发大数据的互联网业务，架构设计思路是“解放数据库CPU，将计算转移到服务
层”，并发量大的情况下，这些功能很可能将数据库拖死，业务逻辑放到服务层具备更好的
扩展性，能够轻易实现“增机器就加性能”。数据库擅长存储与索引，CPU计算还是上移吧
禁止存储大文件或者大照片
解读：为何要让数据库做它不擅长的事情？大文件和照片存储在文件系统，数据库里存URI
多好

二、命名规范

只允许使用内网域名，而不是ip连接数据库
线上环境、开发环境、测试环境数据库内网域名遵循命名规范
业务名称：xxx
线上环境：dj.xxx.db
开发环境：dj.xxx.rdb
测试环境：dj.xxx.tdb
从库在名称后加-s标识，备库在名称后加-ss标识
线上从库：dj.xxx-s.db
线上备库：dj.xxx-sss.db
库名、表名、字段名：小写，下划线风格，不超过32个字符，必须见名知意，禁止
拼音英文混用
表名t_xxx，非唯一索引名idx_xxx，唯一索引名uniq_xxx

三、表设计规范

单实例表数目必须小于500
单表列数目必须小于30
表必须有主键，例如自增主键
解读：

主键递增，数据行写入可以提高插入性能，可以避免page分裂，减少表碎片提升空间和
内存的使用
主键要选择较短的数据类型， Innodb引擎普通索引都会保存主键的值，较短的数据类
型可以有效的减少索引的磁盘空间，提高索引的缓存效率
无主键的表删除，在row模式的主从架构，会导致备库夯住

禁止使用外键，如果有外键完整性约束，需要应用程序控制
解读：外键会导致表与表之间耦合，update与delete操作都会涉及相关联的表，十分影响
sql 的性能，甚至会造成死锁。高并发情况下容易造成数据库性能，大数据高并发业务场景
数据库使用以性能优先

四、字段设计规范

必须把字段定义为NOT NULL并且提供默认值
解读：

null的列使索引/索引统计/值比较都更加复杂，对MySQL来说更难优化
null 这种类型MySQL内部需要进行特殊处理，增加数据库处理记录的复杂性；同等条
件下，表中有较多空字段的时候，数据库的处理性能会降低很多
null值需要更多的存储空，无论是表还是索引中每行中的null的列都需要额外的空间来标
识
对null 的处理时候，只能采用is null或is not null，而不能采用=、in、<、<>、!=、
not in这些操作符号。如：where name!=’zhangsan’，如果存在name为null值的记
录，查询结果就不会包含name为null值的记录

禁止使用TEXT、BLOB类型
解读：会浪费更多的磁盘和内存空间，非必要的大量的大字段查询会淘汰掉热数据，导致内
存命中率急剧降低，影响数据库性能
禁止使用小数存储货币
解读：使用整数吧，小数容易导致钱对不上
必须使用varchar(20)存储手机号
解读：

涉及到区号或者国家代号，可能出现±()
手机号会去做数学运算么？
varchar可以支持模糊查询，例如：like“138%”

禁止使用ENUM，可使用TINYINT代替
解读：

增加新的ENUM值要做DDL操作
ENUM的内部实际存储就是整数，你以为自己定义的是字符串？

五、索引设计规范

单表索引建议控制在5个以内
单索引字段数不允许超过5个
解读：字段超过5个时，实际已经起不到有效过滤数据的作用了
禁止在更新十分频繁、区分度不高的属性上建立索引
解读：

更新会变更B+树，更新频繁的字段建立索引会大大降低数据库性能
“性别”这种区分度不大的属性，建立索引是没有什么意义的，不能有效过滤数据，性
能与全表扫描类似

建立组合索引，必须把区分度高的字段放在前面
解读：能够更加有效的过滤数据

六、SQL使用规范

禁止使用SELECT *，只获取必要的字段，需要显示说明列属性
解读：

读取不需要的列会增加CPU、IO、NET消耗
不能有效的利用覆盖索引

解读：容易在增加或者删除字段后出现程序BUG
禁止使用属性隐式转换
解读：SELECT uid FROM t_user WHERE phone=110 会导致全表扫描，而不
能命中phone索引
禁止在WHERE条件的属性上使用函数或者表达式
解读：SELECT uid FROM t_user WHERE from_unixtime(day)>=‘2021-01-31’ 会导致全
表扫描
正确的写法是：

SELECT uid FROM t_user WHERE day>= unix_timestamp(‘2021-01-31
00:00:00’)

禁止负向查询，以及%开头的模糊查询
解读：

负向查询条件：NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等，会导致全表扫描
%开头的模糊查询，会导致全表扫描

禁止大表使用JOIN查询，禁止大表使用子查询
解读：会产生临时表，消耗较多内存与CPU，极大影响数据库性能
禁止使用OR条件，必须改为IN查询
解读：旧版本Mysql的OR查询是不能命中索引的，即使能命中索引，为何要让数据库耗费
更多的CPU帮助实施查询优化呢？
应用程序必须捕获SQL异常，并有相应处理
总结：大数据量高并发的互联网业务，极大影响数据库性能的都不让用，不让用哟。

还可以多看看阿里巴巴开发手册终极版中的关于MySQL部分的

点击下载《阿里巴巴开发手册终极版》

写在最后

更多架构知识，欢迎关注本套系列文章：Java架构师成长之路