分布式数据库与缓存双写一致性方案解疑

在互联网领域,缓存由于其高并发和高性能的特性,已经在项目中被广泛使用。在读取缓存方面,大家没什么疑问,都是按照下图的流程来进行业务操作。

a85ae8a27d758c19b45f5ce4713f4d94ae836a4c

但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存;又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前笔者还没有见过一篇全面的文章,对这几种方案进行解析。于是笔者战战兢兢,顶着被大家吐槽的风险,写了这篇文章,如有不妥之处敬请在留言区指出,愿与大家一起探讨。

本文将由以下三个部分组成:

  1. 讲解缓存更新策略

  2. 对每种策略进行缺点分析

  3. 针对缺点给出改进方案

先做一个说明,从理论上来说,给缓存设置过期时间,是保证最终一致性的解决方案。这种方案下,我们可以对存入缓存的数据设置过期时间,所有的写操作以数据库为准,对缓存操作只是尽最大努力即可。也就是说如果数据库写成功,缓存更新失败,那么只要到达过期时间,则后面的读请求自然会从数据库中读取新值然后回填缓存。因此,接下来讨论的思路不依赖于给缓存设置过期时间这个方案。

在这里,我们讨论三种更新策略:

  1. 先更新数据库,再更新缓存;

  2. 先删除缓存,再更新数据库;

  3. 先更新数据库,再删除缓存。

应该没有人会问我,为什么没有先更新缓存,再更新数据库这种策略吧?

一、先更新数据库,再更新缓存

这套方案,大家是普遍反对的。为什么呢?有如下两点原因。

d47e62d2b349aca45e42305ed6714efbe5ed61d9原因一(线程安全角度)

同时有请求A和请求B进行更新操作,那么会出现

  1. 线程A更新了数据库;

  2. 线程B更新了数据库;

  3. 线程B更新了缓存;

  4. 线程A更新了缓存。

这就出现请求A更新缓存应该比请求B更新缓存早才对,但是因为网络等原因,B却比A更早更新了缓存。这就导致了脏数据,因此不考虑。

猜你喜欢

转载自my.oschina.net/u/3611008/blog/1823851