缓存中间件整理

一、概述

原理：
1）将数据写入/读取速度更快的存储（设备）
2）将数据缓存到离应用最近的位置
3）将数据缓存到离用户最近的位置
缓存分类
1）CDN缓存
2）反向代理缓存
3）分布式Cache
4）本地应用缓存
缓存媒介
1）常用中间件：Varnish，Ngnix，Squid，Memcache，Redis，Ehcache等
2）缓存的内容：文件，数据，对象
3）缓存的介质：CPU，内存（本地，分布式），磁盘（本地，分布式）
缓存设计
1）缓存的内容：1.热点数据；2.静态资源
2）缓存的位置：CDN，反向代理，分布式缓存服务器，本机（内存，硬盘）
缓存策略
1）过期策略：（1）固定时间：比如指定缓存的时间是30分钟；（2）相对时间：比如最近10分钟内没有访问的数据；
2）同步机制：（1）实时写入；（2）异步刷新
缓存的目的：将热点数据放到离用户最近或访问速度更快的介质中，加快数据的访问，减小响应时间

二、CDN缓存

原理：将缓存服务器分布到用户访问相对集中的地区或网络中，在用户访问网站时，利用全局负载技术将用户的访问指向距离最近的工作正常的缓存服务器上，由缓存服务器直接响应用户请求
优点
1）本地Cache加速：提升访问速度，尤其含有大量图片和静态页面站点
2）镜像服务：消除了不同运营商之间互联的瓶颈造成的影响，实现了跨运营商的网络加速，保证不同网络中的用户都能得到良好的访问质量
3）远程加速：远程访问用户根据DNS负载均衡技术智能自动选择Cache服务器，选择最快的Cache服务器，加快远程访问的速度
4）带宽优化：自动生成服务器的远程Mirror（镜像）cache服务器，远程用户访问时从cache服务器上读取数据，减少远程访问的带宽、分担网络流量、减轻原站点WEB服务器负载等功能
5）集群抗攻击：广泛分布的CDN节点加上节点之间的智能冗余机制，可以有效地预防黑客入侵以及降低各种D.D.o.S攻击对网站的影响，同时保证较好的服务质量
缺点
1）动态资源缓存，需要注意实时性（解决方法：主要缓存静态资源，动态资源建立多级缓存或准实时同步）
2）.如何保证数据的一致性和实时性需要权衡考虑（解决方法：设置缓存失效时间（1个小时，最终一致性））

三、反向代理缓存

原理：反向代理位于应用服务器机房，处理所有对WEB服务器的请求。如果用户请求的页面在代理服务器上有缓冲的话，代理服务器直接将缓冲内容发送给用户。如果没有缓冲则先向WEB服务器发出请求，取回数据，本地缓存后再发送给用户。通过降低向WEB服务器的请求数，从而降低了WEB服务器的负载
代理缓存对比：常用的代理缓存有Varnish，Squid，Ngnix
1）varnish和squid是专业的cache服务，nginx需要第三方模块支持；
2）Varnish采用内存型缓存，避免了频繁在内存、磁盘中交换文件，性能比Squid高；
3）Varnish由于是内存cache，所以对小文件如css,js,小图片啥的支持很棒，后端的持久化缓存可以采用的是Squid或ATS
4） Squid功能全而大，适合于各种静态的文件缓存，一般会在前端挂一个HAProxy或nginx做负载均衡跑多个实例
5） Nginx采用第三方模块ncache做的缓冲，性能基本达到varnish，一般作为反向代理使用，可以实现简单的缓存

四、分布式缓存-memecache

特性：
1）使用物理内存作为缓存区，可独立运行在服务器上。每个进程最大2G，如果想缓存更多的数据，可以开辟更多的memcache进程（不同端口）或者使用分布式memcache进行缓存，将数据缓存到不同的物理机或者虚拟机上
2）使用key-value的方式来存储数据，这是一种单索引的结构化数据组织形式，可使数据项查询时间复杂度为O(1)
3）协议简单：基于文本行的协议，直接通过telnet在memcached服务器上可进行存取数据操作，简单，方便
4）内置的内存管理方式：所有数据都保存在内存中，存取数据比硬盘快，当内存满后，通过LRU算法自动删除不使用的缓存，但没有考虑数据的容灾问题，重启服务，所有数据会丢失
5）分布式：各个memcached服务器之间互不通信，各自独立存取数据，不共享任何信息。服务器并不具有分布式功能，分布式部署取决于memcache客户端
6）缓存策略：Memcached的缓存策略是LRU（最近最少使用）到期失效策略。在memcached内存储数据项时，可以指定它在缓存的失效时间，默认为永久。当memcached服务器用完分配的内时，失效的数据被首先替换，然后也是最近未使用的数据。在LRU中，memcached使用的是一种Lazy Expiration策略，自己不会监控存入的key/vlue对是否过期，而是在获取key值时查看记录的时间戳，检查key/value对空间是否过期，这样可减轻服务器的负载
工作流程
1）先检查客户端的请求数据是否在memcached中，如有，直接把请求数据返回，不再对数据库进行任何操作
2）如果请求的数据不在memcached中，就去查数据库，把从数据库中获取的数据返回给客户端，同时把数据缓存一份到memcached中（memcached客户端不负责，需要程序实现）
3）每次更新数据库的同时更新memcached中的数据，保证一致性
4）当分配给memcached内存空间用完之后，会使用LRU（Least Recently Used，最近最少使用）策略加上到期失效策略，失效数据首先被替换，然后再替换掉最近未使用的数据
分布式算法：
1）余数算法：先求得键的整数散列值，再除以服务器台数，根据余数确定存取服务器（优点：计算简单，高效；缺点：在memcached服务器增加或减少时，几乎所有的缓存都会失效，危险：所有压力直接抵达后端，数据库会崩溃的）
2）散列算法：先算出memcached服务器的散列值，并将其分布到0到2的32次方的圆上，然后用同样的方法算出存储数据的键的散列值并映射至圆上，最后从数据映射到的位置开始顺时针查找，将数据保存到查找到的第一个服务器上，如果超过2的32次方，依然找不到服务器，就将数据保存到第一台memcached服务器上（添加了一台memcached服务器，只在圆上增加服务器的逆时针方向的第一台服务器上的键会受到影响）

五、分布式缓存-redis

简介：
1）Redis 是一个开源（BSD许可）的，基于内存的，多数据结构存储系统。可以用作数据库、缓存和消息中间件
2）支持多种类型的数据结构，如字符串（strings），散列（hashes），列表（lists），集合（sets），有序集合（sorted sets）与范围查询， bitmaps， hyperloglogs 和地理空间（geospatial）索引半径查询

3）内置了复制（replication），LUA脚本（Lua scripting）， LRU驱动事件（LRU eviction），事务（transactions）和不同级别的磁盘持久化（persistence），并通过 Redis哨兵（Sentinel）和自动分区（Cluster）提供高可用性（high availability）
哨兵模式：
1）哨兵(sentinel) 会不断地检查Master和Slave是否运作正常
2）当被监控的某个Redis节点出现问题时, 哨兵(sentinel) 可以通过 API 向管理员或者其他应用程序发送通知。
3）自动故障迁移(Automatic failover)：当一个Master不能正常工作时，哨兵(sentinel) 会开始一次自动故障迁移操作，它会将失效Master的其中一个Slave升级为新的Master, 并让失效Master的其他Slave改为复制新的Master；当客户端试图连接失效的Master时，集群也会向客户端返回新Master的地址，使得集群可以使用现在的Master替换失效Master。
4）Master和Slave服务器切换后，Master的redis.conf、Slave的redis.conf和sentinel.conf的配置文件的内容都会发生相应的改变，即，Master主服务器的redis.conf配置文件中会多一行slaveof的配置，sentinel.conf的监控目标会随之调换
5）优点：系统更健壮，可用性更高
6）缺点：Redis较难支持在线扩容，在集群容量达到上限时在线扩容会变得很复杂。为避免这一问题，运维人员在系统上线时必须确保有足够的空间，这对资源造成了很大的浪费；配置复杂
Cluster集群模式
1）架构模式：支撑N个redis master node，每个master node都可以挂载多个slave node（读写分离：写到master，然后读就从mater对应的slave去读）
2）使用场景：redis cluster，主要是针对海量数据+高并发+高可用的场景，海量数据，如果你的数据量很大，那么建议就用redis cluster
3）hash slot算法：
（1）redis cluster有固定的16384个hash slot，对每个key计算CRC16值，然后对16384取模，可以获取key对应的hash slot
（2）redis cluster中每个master都会持有部分slot，比如有3个master，那么可能每个master持有5000多个hash slot
（3）hash slot让node的增加和移除很简单，增加一个master，就将其他master的hash slot移动部分过去，减少一个master，就将它的hash slot移动到其他master上去（移动hash slot的成本是非常低的）
（4）客户端的api，可以对指定的数据，让他们走同一个hash slot，通过hash tag来实现
4）通信机制
（1）gossip：好处在于，元数据的更新比较分散，不是集中在一个地方，更新请求会陆陆续续，打到所有节点上去更新，有一定的延时，降低了压力; 缺点，元数据更新有延时，可能导致集群的一些操作会有一些滞后
（2）每个节点都有一个专门用于节点间通信的端口，就是自己提供服务的端口号+10000，比如7001，那么用于节点间通信的就是17001端口（每个节点每隔一段时间都会往另外几个节点发送ping消息，同时其他几点接收到ping之后返回pong）
5）gossip协议：包含多种消息，包括ping，pong，meet，fail，等等
（1）meet: 某个节点发送meet给新加入的节点，让新节点加入集群中，然后新节点就会开始与其他节点进行通信
（2）ping: 每个节点都会频繁给其他节点发送ping，其中包含自己的状态还有自己维护的集群元数据，互相通过ping交换元数据
（3）pong: 返回ping和meet，包含自己的状态和其他信息，也可以用于信息广播和更新
（4）fail: 某个节点判断另一个节点fail之后，就发送fail给其他节点，通知其他节点，指定的节点宕机了
6）高可用
（1）如果一个节点认为某个节点pfail了，那么会在gossip ping消息中，ping给其他节点，如果超过半数的节点都认为pfail了，那么就会变成fail
（2）对宕机的master node，从其所有的slave node中，选择一个切换成master node（检查每个slave node与master node断开连接的时间，如果超过了cluster-node-timeout * cluster-slave-validity-factor，那么就没有资格切换成master）
（3）每个从节点，都根据自己对master复制数据的offset，来设置一个选举时间，offset越大（复制数据越多）的从节点，选举时间越靠前，优先进行选举
（4）所有的master node开始slave选举投票，给要进行选举的slave进行投票，如果大部分master node（N/2 + 1）都投票给了某个从节点，那么选举通过，那个从节点可以切换成master
（5）从节点执行主备切换，从节点切换为主节点

六、memcache与redis对比

数据结构：Memcache只支持key value存储方式，Redis支持更多的数据类型，比如Key value，hash，list，set，zset
多线程：Memcache支持多线程，redis支持单线程；CPU利用方面Memcache优于redis
持久化：Memcache不支持持久化，Redis支持持久化
内存利用率：memcache高，redis低（采用压缩的情况下比memcache高）
过期策略：memcache过期后，不删除缓存，会导致下次取数据数据的问题，Redis有专门线程，清除缓存数据

七、本地缓存

硬盘缓存：将数据缓存到硬盘到，读取时从硬盘读取。原理是直接读取本机文件，减少了网络传输消耗，比通过网络读取数据库速度更快。可以应用在对速度要求不是很高，但需要大量缓存存储的场景
内存缓存：直接将数据存储到本机内存中，通过程序直接维护缓存对象，是访问速度最快的方式（适合少量缓存，对速度敏感的场景）

八、缓存架构示例

职责划分（建议使用方式，非绝得）：
1）CDN：存放HTML,CSS,JS等静态资源；
2）反向代理：动静分离，只缓存用户请求的静态资源
3）分布式缓存：缓存数据库中的热点数据
4）本地缓存：缓存应用字典等常用数据
请求过程
1）浏览器向客户端发起请求，如果CDN有缓存则直接返回
2）如果CDN无缓存，则访问反向代理服务器；如果反向代理服务器有缓存则直接返回
3）如果反向代理服务器无缓存或动态请求，则访问应用服务器
4）应用服务器访问本地缓存；如果有缓存，则返回代理服务器，并缓存数据；（动态请求不缓存）
5）如果本地缓存无数据，则读取分布式缓存；并返回应用服务器；应用服务器将数据缓存到本地缓存（部分）
6）如果分布式缓存无数据，则应用程序读取数据库数据，并放入分布式缓存

九、数据一致性（缓存属于持久化数据的一个副本，因此不可避免的会出现数据不一致问题）

使用场景
1）先写缓存，再写数据库：假如缓存写成功，但写数据库失败或响应延迟，则下次读取（并发读）缓存时，就出现脏读（不建议此种使用方式）
2）先写数据库，再写缓存：假如写数据库成功，但写缓存失败，则下次读取（并发读）缓存时，则读不到数据（假如读缓存失败，先读数据库，再回写缓存的方式实现）
3）缓存异步刷新：需要考虑数据写入和缓存刷新的时效性（根据经验值确定合理的数据不一致时间，用户数据刷新的时间间隔）
其他优化方式：
1）超时：设置合理的超时时间；
2）刷新：定时刷新一定范围内（根据时间，版本号）的数据；
多级缓存需要考虑的问题
1）缓存与数据库之间的一致性；
2）多级缓存之前的一致性；
3）缓存副本之前的一致性。

十、缓存雪崩：雪崩是指当大量缓存失效时，导致大量的请求访问数据库，导致数据库服务器，无法抗住请求或挂掉的情况

合理规划缓存的失效时间；
合理评估数据库的负载压力；
对数据库进行过载保护或应用层限流
多级缓存设计，缓存高可用

十一、缓存穿透

现象：缓存一般是Key，value方式存在，当某一个Key不存在时会查询数据库，假如这个Key，一直不存在，则会频繁的请求数据库，对数据库造成访问压力
解决方法：
1）对结果为空的数据也进行缓存，当此key有数据后，清理缓存
2）一定不存在的key，采用布隆过滤器，建立一个大的Bitmap中，查询时通过该bitmap过滤

猜你喜欢