你真的了解Redis的持久化机制吗?

我正在参与掘金技术社区创作者签约计划招募活动,点击链接报名投稿

2022年6月的某一天,办公区的气氛格外的压抑,此时的小编吹着空调双眼微眯的站在同事胖虎身后,看着他满头大汗的将数据库的数据导入到Redis。

经过小编的一番询问才知道,原来是他们生产Redis今天莫名其妙的挂了,而且因为是新项目,一会要给领导演示用,生产环境Redis就只部署了一个节点,这一挂不要紧,缓存进去的数据怎么办...

恰巧这个时候,小编听见老板办公室里传出了一声大喊,“胖虎,来给我演示一下项目”,五分钟后,满脸通红的胖虎从老板办公室里出来了。

这时小编突然想到,Redis不是有持久化机制吗? 在和胖虎的交谈中发现,他竟然不知道Redis的持久化机制,小编就默默地装了个13。

Redis持久化

Redis 的持久化机制有两种,一种是快照(RDB),另一种是 AOF 日志。RDB是一次全量备份,AOF 日志是连续的增量备份。快照是内存数据的二进制序列化形式,在存储上非常紧凑,而 AOF 日志记录的是内存数据修改的指令记录文本。

RDB快照

RDB快照持久化是Redis默认开启的,它会根据配置策略将内存数据保存在一个名为dmp.rdb的二进制文件中。

在redis.conf配置文件中,可以配置RDB的持久化策略,系统默认是有三个保存策略(三个同时生效),如下:

  • save 900 1 900秒内有1个键发生改变
  • save 300 10 30秒内有10个键发生改变
  • save 60 10000 60秒内有10000个键发生改变

我们也可以根据我们自己生产环境的具体情况进行配置。如果我们要关闭RDB快照,直接将配置文件中上述三个save注释掉即可。

写时复制机制(COW)

Redis提供了save命令进行快照生成,但是save命令要阻塞主进程(执行客户端命令的线程),当需要生成快照的内存特别大时(几百个G),需要的时间也会很长,甚至十几秒,所以这个时候如果阻塞主进程,会导致整个服务不可用,就得不偿失了。

针对这种情况,Redis借助操作系统提供的写时复制技术,提供了bgsave命令,basave命令可以在主进程的基础上,fork一个子进程,子进程会共享主进程的代码段和数据段,相当于是在后台生成快照。

在bgsave子进程写入RDB数据时,如果主进程对这些数据也都是读操作,那么,主进程和 bgsave 子进程相互不影响。但是,如果主进程要修改一块数据,这块数据就会被复制一份,生成该数据的副本。然后,bgsave 子进程会把这个副本数据写入RDB,而在这个过程中,主进程仍然可以直接修改原来的数据。

演示

bgsave会进行后台操作,不阻塞流程。 保存后会生成一个dump.rdb文件。因为二进制文件打开也是乱码,所以我们就不打开了。

优点

  • Redis宕机后数据恢复快
  • 二进制文件体积小

缺点

  • 持久化策略可能会导致在宕机时数据丢失量较多

AOF(append-only file)

AOF持久化可以通过redis.conf文件中的appendonly参数控制是否开启。

  • appendonly no 默认情况下是no, 将no改为yes即可开启AOF持久化方式,Redis会将修改的每一条指令先记录到系统缓存,默认每隔一秒钟就把缓存刷新到appendonly.aof磁盘文件中 当 Redis 重新启动时, 程序就可以通过重新执行 AOF 文件中的命令来达到重建数据集的目的。

演示

小编直接修改redis.conf文件中的appendonly参数,然后重启redis,set了几个键值对,等了好几秒,发现当前目录下并没有生成appendonly.aof文件。

后来通过直接在redis-cli执行config set appendonly yes命令,当前目录下才生成appendonly.aof文件。

接下来我们打开appendonly.aof文件就能看到我们之前写入的键值对。

*2
$6
SELECT
$1
0
*3
$3
SET
$1
1
$1
2
*3
$3
SET
$4
key1
$4
val1
*3
$3
SET
$4
3124
$3
124
*3
$3
SET
$5
key14
$4
key2

这是一种resp协议格式数据,星号后面的数字代表命令有多少个参数,$号后面的数字代表这个参数有几个字符。

AOF持久化策略

  • appendfsync always:每次有新命令追加到 AOF 文件时就执行一次 fsync ,非常慢,也非常安全,不建议用,本身Redis就是借助的内存快的优势,要是每次操作都访问磁盘这个优势就没了。
  • appendfsync everysec:每秒 fsync 一次,足够快,并且在故障时只会丢失 1 秒钟的数据,AOF默认会走在这个配置。
  • appendfsync no:从不 fsync ,将数据交给操作系统来处理。更快,也更不安全的选择,发生宕机时,丢失的数据最多。

AOF重写

假设我们执行了两个命令 set key1 1set key1 2,在开启AOF持久化的情况下,这两个命令都会被记录到AOF文件中,但是我们在宕机后重启恢复数据的时候是不是就只需要执行set key1 2就可以了,之前的set key1 1在恢复数据的时候忽略掉也没有任何影响,并且因为AOF文件随着时间的推移,体积会越来越大,重写AOF就显得尤为重要。

手动触发后台重写,redis客户端执行命令:bgrewriteaof

Redis提供了两个配置参数控制AOF自动重写频率(redis.conf)。

  • auto‐aof‐rewrite‐min‐size 64mb //aof文件至少要达到64M才会自动重写,文件太小恢复速度本来就 很快
  • auto‐aof‐rewrite‐percentage 100 //aof文件自上一次重写后文件大小增长了100%则再次触发重写

触发重写时 Redis 会通过fork主进程,生成一个子进程去做,这么做的原因是因为重写一般意味着要有大量的I/O操作,非常耗时,如果用主进程去重写会导致主进程长时间的阻塞,影响Redis执行客户端命令,甚至导致服务长时间不可用,但是子进程去重写就意味着主进程仍然可以接收、处理客户端指令,就会导致重写后的AOF文件和服务器当前的数据库状态不一致。

例如:子进程fork主进程时,内存中只有key1这个键,但是当开始重写后,客户端又多set了key2、key3,这就导致了重写的AOF文件和数据库不一致。

所以Redis在AOF重写时加了一个AOF重写缓冲区,当有新命令执行的时候,Redis会将命令发送到AOF缓冲区和AOF重写缓冲区。

执行完重写任务后,子进程会向主进程发送一个信号,主进程收到信号后会执行下面两个操作(以下两个操作会阻塞主进程):

  • 将 AOF 重写缓冲区中的所有内容写入到新的 AOF 文件中,保证新 AOF 文件保存的数据库状态和服务器当前状态一致。
  • 对新的 AOF 文件进行改名,原子的覆盖现有 AOF 文件,完成新旧文件的替换

虽然只有上面两个操作会阻塞Redis主进程,但是很显然它已经将重写对性能的影响降到了最低。但是如果你想再对其进行优化,这里有两个解决方案。

  1. 服务低峰期定时重写
  2. 使用ssd,提升持久化效率

注意:AOF在重写时,为了避免执行命令时造成的客户端缓冲区溢出,重写程序在处理列表、哈希表、集合、有序集合这四种可能会有多个元素的键时,会先检查键所包含的元素数量,如果元素的数量超过了redis.h/REDIS_AOF_REWRITe_ITeMS_PER_CMD常量的值(默认64个元素),那么重写程序将会使用多条命令来记录键的值,而不是单单只用一条命令。

优点

  • 数据完整性要高于RDB,默认情况下,最多丢失1秒钟的数据。

缺点

  • Redis宕机后数据恢复慢
  • 文件体积大

混合持久化(sence redis4.0)

Redis宕机恢复时,为了提高数据的完整程度,我们通常使用 AOF 日志进行恢复,但是使用 AOF 日志性能相对 RDB来说要慢很多,这样在 Redis 实例很大的情况下,启动需要花费很长的时间。 Redis4.0 为了解决这个问题,推出了混合持久化,说白了,混合持久化就是结合了RDB与AOF两种持久化方式的优势。

启混合模式后,AOF在重写时会将AOF文件中的数据以RDB文件的二进制格式写入当前AOF文件中,之后的新的写操作继续以AOF文件的格式进行追加。当redis宕机重启的时候,加载 AOF 文件进行恢复数据:先加载 RDB 的部分再加载剩余的 AOF内容,因此重启效率大幅得到提升。

通过修改redis.conf文件中的以下配置开启混合持久化(必须先开启AOF持久化):

  • aof‐use‐rdb‐preamble yes

总结

  • RDB文件会保存Redis中所有的键值对数据
  • save生成RDB文件会阻塞主进程
  • bgsave命令后台生成RDB,不会阻塞主进程
  • RDB文件体积小,保存的是二进制数据
  • RDB通过配置策略执行,可能会丢失部分数据
  • RDB文件在Redis宕机后恢复快

  • AOF文件保存的是客户端执行的命令
  • AOF文件体积大,恢复慢,但是默认配置下数据比RDB要全很多
  • Redis宕机重启后默认是用AOF方式进行恢复
  • AOF文件中的命令是以Resp协议格式保存的
  • 命令会先保存到缓冲区,再定期同步到AOF文件
  • AOF会根据配置策略自动的对AOF文件进行重写,以降低文件体积
  • AOF重写时会fork一个子进程去执行,同时会有一个重写缓冲区,用来保存重写时主进程修改的键
  • AOF重写时,最后会生成一个新的AOF文件,覆盖原有的文件
  • 将重写缓冲区的内容写入到AOF与替换新旧AOF文件时会阻塞主进程

  • 混合持久化是RDB与AOF的优势结合所产生的
  • 混合持久化本质还是用的AOF文件
  • 混合持久化使用的前提是开启AOF持久化
  • 混合持久化在重写AOF文件时会将数据直接写成RDB的二进制格式,之后新的命令还是以AOF文件Resp协议格式进行保存

fsync

为了提高文件的写入效率,linux系统在做持久化时,会调用write函数,先将要写入文件的数据保存在一个内存缓冲区里就会直接返回,等到缓冲区被填满,或者超过了指定的时限(一般是30秒)后,才会将缓冲区的数据写入到磁盘。

这种做法虽然提高了写入效率,但是如果发生宕机,就有可能会导致缓冲区中还未写入磁盘的数据丢失。

为此,linux提供了fsync函数,它会强制并阻塞等待系统将数据写入到磁盘,从而保证数据的安全性

子进程

为什么Redis会fork一个子进程而不用子线程,是因为子进程可以携带主进程的数据副本,可以避免在不使用锁的情况下,保证数据安全。

注:子进程在重写期间,主进程还是会接收并处理客户端命令,会导致子进程与主进程数据不一致。

参考资料

Redis的设计与实现


微信搜一搜:云下风澜

首发文章、系列文章连载阅读

猜你喜欢

转载自juejin.im/post/7114877074053005320