关于缓存问题的一些思考

随着互联网系统的发展，相信现在大部分在线的系统都会使用缓存机制，来提高系统的qps，避免请求数据库过多，而造成系统故障。从这方面考虑，缓存机制在很大程度上，提高了用户的体验度。

但是随之而来的一些问题，也是需要我们来关注下的，这里主要有三个问题：

缓存穿透
缓存雪崩
缓存击穿

咱们先来看这个缓存穿透，它是指，我们在查询一个一定不存在的数据时，因为缓存中也肯定没有，所以请求会走到数据库中，我们从系统层面来看这步操作，就像是这个请求穿透了缓存层，直接走到数据库层面，所以嘞，我们可以把它叫做缓存穿透。

我们可以来分析下这种操作，如果没有了缓存层的保护，这种直接查询数据库，并且找不到数据的操作，是可以对我们的系统造成一定程度上的威胁的，甚至可以引起数据库瘫痪等一系列问题。

好啦，废话不多说，来看下解决方案：

bloom filter：类似于哈希表的一种算法，用所有可能的查询条件生成一个bitmap，在进行数据库查询之前会使用这个bitmap进行过滤，如果不在其中则直接过滤，从而减轻数据库层面的压力。guava中有实现BloomFilter算法。
空值缓存：一种比较简单的解决办法，在第一次查询完不存在的数据后，将该key与对应的空值也放入缓存中，只不过设定为较短的失效时间，例如几分钟，这样则可以应对短时间的大量的该key攻击，设置为较短的失效时间是因为该值可能业务无关，存在意义不大，且该次的查询也未必是攻击者发起，无过久存储的必要，故可以早点失效

好，来看第二个问题，缓存雪崩。

在普通的缓存系统中一般例如redis、memcache等中，我们会给缓存设置一个失效时间，但是如果所有的缓存的失效时间相同，那么在同一时间失效时，所有系统的请求都会发送到数据库层，db可能无法承受如此大的压力导致系统崩溃，这就可以叫做是缓存雪崩。

来看下解决方案：

线程互斥：只让一个线程构建缓存，其他线程等待构建缓存的线程执行完，重新从缓存获取数据才可以，每个时刻只有一个线程在执行请求，减轻了db的压力，但缺点也很明显，降低了系统的qps。
交错失效时间：这种方法时间比较简单粗暴，既然在同一时间失效会造成请求过多雪崩，那我们错开不同的失效时间即可从一定长度上避免这种问题，在缓存进行失效时间设置的时候，从某个适当的值域中随机一个时间作为失效时间即可。

最后来看下缓存击穿。

缓存击穿实际上是缓存雪崩的一个特例，大家使用过微博的应该都知道，微博有一个热门话题的功能，用户对于热门话题的搜索量往往在一些时刻会大大的高于其他话题，这种我们成为系统的“热点“，由于系统中对这些热点的数据缓存也存在失效时间，在热点的缓存到达失效时间时，此时可能依然会有大量的请求到达系统，没有了缓存层的保护，这些请求同样的会到达db从而可能引起故障。击穿与雪崩的区别即在于击穿是对于特定的热点数据来说，而雪崩是全部数据。

关于解决方案，这里有两种。

首先，我们可以对于热点数据进行二级缓存，并对于不同级别的缓存设定不同的失效时间，则请求不会直接击穿缓存层到达数据库。

其次呢，我们可以参考阿里双11万亿流量的缓存击穿解决方案。我们知道，解决此问题的关键在于热点访问，由于热点可能随着时间的变化而变化，针对固定的数据进行特殊缓存是不能起到治本作用的，所以，我们可以结合LRU算法来解决这个问题。

咱们来看看什么是LRU算法？？？

LRU（Least recently used，最近最少使用）算法根据数据的历史访问记录来进行淘汰数据，其核心思想是“如果数据最近被访问过，那么将来被访问的几率也更高”。

它最常见的实现是使用一个链表保存缓存数据，来看下示意图：

上图这个链表即是我们的缓存结构，它的缓存处理步骤如下：

首先将新数据放入链表的头部
在进行数据插入的过程中，如果检测到链表中有数据被再次访问也就是有请求再次访问这些数据，那么就其插入的链表的头部，因为它们相对其他数据来说可能是热点数据，具有保留时间更久的意义
最后当链表数据放满时将底部的数据淘汰，也就是不常访问的数据

我们再来看下LRU-K算法，其实上面的算法也是该算法的特例情况即LRU-1，上面的算法存在较多的不合理性，在实际的应用过程中采用该算法进行了改进，例如偶然的数据影响会造成命中率较低，比如某个数据即将到达底部即将被淘汰，但由于一次的请求又放入了头部，此后再无该数据的请求，那么该数据的继续存在其实是不合理的，针对这类情况LRU-K算法拥有更好的解决措施，来看下这个算法的示意图：

LRU-K需要多维护一个队列或者更多，用于记录所有缓存数据被访问的历史。只有当数据的访问次数达到K次的时候，才将数据放入缓存。当需要淘汰数据时，LRU-K会淘汰第K次访问时间距当前时间最大的数据，来看下它的缓存处理步骤：

第一步添加数据照样放入第一个队列的头部
如果数据在该队列里访问没有达到K次（该数值根据具体系统qps来定）则会继续到达链表底部直至淘汰；如果该数据在队列中时访问次数达到了K次，那么它会被加入到接下来的2级(具体需要几级结构也同样结合系统分析)链表中，按照时间顺序在2级链表中排列
接下来2级链表中的操作与上面算法相同，链表中的数据如果再次被访问则移到头部，链表满时，底部数据淘汰

相比LRU，LRU-K需要多维护一个队列，用于记录所有缓存数据被访问的历史，所以需要更多的内存空间来用来构建缓存，但优点也很明显，较好的降低了数据的污染率提高了缓存的命中率，对于系统来说可以用一定的硬件成本来换取系统性能也不失为一种办法。

其实关于缓存结构算法还有很多，咱这里也就不一一赘述了。

好啦，本次记录就到这里了。

如果感觉不错的话，请多多点赞支持哦。。。

关于缓存问题的一些思考

猜你喜欢