构建高可用的缓存集群的开源解决方案

很多应用都通过使用缓存来避免所有的请求都查询数据库，以加快系统的响应速度，Memcached是常用的缓存服务器（现在比较流行的还有Redis），它一个高性能的分布式内存对象缓存系统，旨在通过缓存数据库查询结果，减少数据库的访问次数。但是在运行多个Memcached服务器时，往往还需要考虑其它的问题，比如缓存一致性、缓存失效等，缓存一致性是指要保证多个Memcached服务器中数据的一致，缓存失效的后果相对来说比较严重，当在大并发访问的场景下，如果Memcached缓存失效，所有请求会在同一瞬间并发访问数据库，可能会导致数据库宕机。为了保证缓存系统的稳定和高可用，很多公司都研发了相应的系统。本文汇总了Twitter、Facebook、Youtube在缓存方面的解决方案，供读者参考。

Twitter的Redis/Memcached代理服务：Twemproxy
Twemproxy是一个使用C语言编写的Redis 和 Memcache 代理服务器，通过引入一个代理层，将应用程序后端的多台Redis或Memcached实例进行统一管理，使应用程序只需要在Twemproxy上进行操作，而不用关心后面具体有多少个真实的Redis或Memcached实例。当某个节点宕掉时，Twemproxy可以自动将它从集群中剔除，而当它恢复服务时，Twemproxy也会自动连接。由于是代理，所以Twemproxy会有微小的性能损失。
Facebook的Memcached协议路由器：McRouter
McRouter是一个使用C++（主要语言，使用了大量的C++ 11特性）开发的基于Memcached协议的路由器，它是Facebook和Instagram缓存架构的核心组件，在高峰时期可以处理近50亿请求。McRouter中客户端可以共享连接池，这样能减少连接的数量。McRouter可以根据key前缀把客户端分配到不同的Memcached池中，允许以主机、池或者集群为单位设置任何请求的速率的阀值,同时也支持限制请求的速度以减缓请求的发送速度，以保障服务质量。
Youtube的Mysql中间件：Vitess
缓存层存在的初衷是减少应用与数据库的交互，以提高响应时间，与其将缓存与数据库分离，不如直接将缓存嵌入数据库中。 Vitess是Youtube的开源分布式MySQL工具集，主要使用Go语言编写，已经用于Youtube生产环境。Vitess支持行级缓存，并与Memcached进行了集成，可以有效提高带主键查询的速率，查询只有在Memcached中查询不到时才会进入数据库查询，而当数据被修改或者数据库表结构发生变化时，缓存数据会被删除。

.

4. NetFlix 对Dynamo的开源通用实现Dynomite

Dynomite是NetFlix对亚马逊分布式存储引擎Dynamo的一个开源通用实现，使用C/C++语言编写、以代理的方式实现的Redis缓存集群方案。Dynomite不仅能够将基于内存的Redis和Memcached打造成分布式数据库，还支持持久化的MySQL、 BerkeleyDB、 LevelDB等数据库，并具有简单、高效、支持跨数据中心的数据复制等优点。Dynomite的最终目标是提供数据库存储引擎不能提供的简单、高效、跨数据中心的数据复制功能。Dynomite遵循 Apache License 2.0开源协议发布，更多关于Dynomite的信息请查看NetFlix技术博客对 Dynomite的介绍。

5. 豌豆荚的 Redis 集群解决方案Codis
Codis是豌豆荚使用Go和C语言开发、以代理的方式实现的一个Redis分布式集群解决方案,且完全兼容Twemproxy。Twemproxy对于上一层的应用来说, 连接Codis Proxy（Redis代理服务）和连接原生的Redis服务器没有明显的区别,上一层应用能够像使用单机的 Redis一样对待。Codis底层会处理请求的转发、不停机的数据迁移等工作, 所有底层的一切处理, 对于客户端来说是透明的。总之，可以简单的认为后台连接的是一个内存无限大的Redis服务。Codis遵循MIT开源协议发布，更多关于Codis的信息请登录其在GitHub的主页查看。

另外，还有一些未开源的解决方案，比如Box的Tron。同时，InfoQ也非常关注国内相关问题的解决方案，欢迎读者在评论中留言与我探讨。

缓存更新策略：

一般缓存的使用方式是：先读取缓存，若不存在则从DB中读取，并将结果写入到缓存中；下次数据读取时便可以直接从缓存中获取数据。

数据的修改是直接失效缓存数据，再修改DB内容，避免DB修改成功，但由于网络或者其他问题导致缓存数据没有清理，造成了脏数据。

解决读取脏数据的方法就是给数据加版本号：

修改数据前，先失效缓存，失效成功了，同时递增cache版本号，接着将版本号保存到DB中。若数据库更新失败，则重试知道更新成功。

读取缓存时，没有读取到，则去读DB，接着将DB数据的版本号与cache版本号比较，只有cache不存在或者版本号一致时更新cache成功。

注：修改数据只负责失效缓存和更新DB、

读数据负责读取数据和更新cahce

构建高可用的缓存集群的开源解决方案

猜你喜欢