Redis高可用(2.1)：故障转移（哨兵）

哨兵（Sentinel）介绍

Redis-Sentinel是官方推荐的高可用解决方案，当redis在做master-slave的高可用方案时，假如master宕机了，redis本身（以及其很多客户端）都没有实现自动进行主备切换，而redis-sentinel本身也是独立运行的进程，可以部署在其他与redis集群可通讯的机器中监控redis集群。

Sentinel(哨兵)是用于监控redis集群中Master状态的工具，支持以集群的方式部署，生产环境建议至少部署3个节点的哨兵。

作用

1、集群监控，负责监控redis master和slave进程是否正常工作

2、故障转移，如果Master异常，则会进行Master-Slave切换，将其中一个Slave作为Master，将之前的Master作为Slave

3、配置中心，Master-Slave切换后，master_redis.conf、slave_redis.conf和sentinel.conf的内容都会发生改变，即master_redis.conf中会多一行slaveof的配置，slave_redis.conf中原slaveof配置会被移除，sentinel.conf的监控目标会随之调换。哨兵为客户端提供服务发现，客户端链接哨兵，哨兵提供当前最新可用的master的地址，如果出现切换，也就是master挂了，哨兵会提供客户端一个新地址。

4、消息通知，如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员

Sentinel工作方式

1、每个Sentinel以每秒钟一次的频率向它所知的Master，Slave以及其他Sentinel实例发送一个PING命令

2、如果一个实例（instance）距离最后一次有效回复PING命令的时间超过down-after-milliseconds选项所指定的值，则这个实例会被Sentinel标记为主观下线。

3、如果一个Master被标记为主观下线，则正在监视这个Master的所有Sentinel要以每秒一次的频率确认Master的确进入了主观下线状态。

4、当有足够数量的Sentinel（大于等于配置文件指定的值）在指定的时间范围内确认Master的确进入了主观下线状态，则Master会被标记为客观下线

5、在一般情况下，每个Sentinel会以每10秒一次的频率向它已知的所有Master，Slave发送INFO命令

6、当Master被Sentinel标记为客观下线时，Sentinel向下线的Master的所有Slave发送INFO命令的频率会从10秒一次改为每秒一次

7、若没有足够数量的Sentinel同意Master已经下线，Master的客观下线状态就会被移除。若Master重新向Sentinel的PING命令返回有效回复，Master的主观下线状态就会被移除。

主观下线和客观下线

主观下线：SubjectivelyDown，简称SDOWN，指的是当前Sentinel实例对某个redis服务器做出的下线判断。

客观下线：ObjectivelyDown，简称ODOWN，指的是多个Sentinel实例在对MasterServer做出SDOWN判断，并且通过SENTINEL is-master-down-by-addr命令互相交流之后，得出的MasterServer下线判断，然后开启failover.

redis的sentinel系统用来管理多个redis服务器，可以确保在一个master节点上实现HA的集群。该系统主要执行三个任务：

a、监控（Monitoring）：RedisSentinel实时监控主服务器和从服务器运行状态。

b、提醒（notification）：当被监控的某个Redis服务器出现问题时，RedisSentinel可以向系统管理员发送通知，也可以通过API向其他程序发送通知

一个简单的主从结构加sentinel集群的架构图如下：

上图是一主一从节点，加上两个部署了sentinel的集群，sentinel集群之间会互相通信，沟通交流redis节点的状态，做出相应的判断并进行处理，这里的主观下线状态和客观下线状态是比较重要的状态，它们决定了是否进行故障转移可以通过订阅指定的频道信息，当服务器出现故障得时候通知管理员

c、故障转移（failover）

配置文件配置可参考sentinel.conf。

增加如下配置：

#后台运行
daemonize yes
日志文件
logfile /usr/local/redis/logs/sentinel.log

修改如下配置：

#运行端口号(确保防火墙中增加该号码的过滤)
port 26379
#绑定本机ip（sentinel集群中每个实例的配置除了此项不同，其他均可保持一致）
bind 192.168.0.100
####下面的配置可以配置多组，用于对不同的master进行监控####
#配置监控的master节点（mymaster为sentinel集群中对一组redis实例监控的代号，可自定义名称，保证sentinel集群中的名称一致即可）
--mymaster：自定义名称，后续其他配置项均基于此配置，表示配置项仅对当前master生效
--192.168.0.200：master节点ip
--6379：master节点端口号
--2：票数，<=count(sentinel)，当master被标记为主观下线后，集群中其他sentinel对master进行是否下线的侦测从而汇总出一个票数，如果票数大于等于配置的值（此处为2），则master节点被标记为客观下线，随后进行故障转移
sentinel monitor mymaster 192.168.0.200 6379 2
#sentinel对master进行ping，如果配置时间(30s)没有得到回复，则master被标记为主观下线
sentinel down-after-milliseconds mymaster 30000
#故障转移,如果在该时间（ms）内未能完成failover操作，则认为该failover失败
sentinel failover-timeout mymaster 180000
#配置在进行故障转移时，运行多少个slave进行数据备份同步(越少速度越快)，即有1个slave此时不能对外提供服务
sentinel parallel-syncs mymaster 1 
#设置master和slave节点密码，如果有，必须一样
sentinel auth-pass mymaster 123456
#针对节点为master时有效，要求至少有1个slave，数据复制和同步的延迟不能超过10秒。否则，master将拒绝写数据。可用于降低异步复制和脑裂导致的数据丢失。
min-slaves-to-write 1
min-slaves-max-lag 10

常用命令:

#连接当前sentinel(同连接redis类似)

redis-cli -h 127.0.0.1 -p 26379

#sentinel的基本状态信息

info

#显示被监控的所有master以及它们的状态

sentinel masters

#显示指定master的信息和状态

sentinel master [sentinel中自定义的master名]

#显示指定master的所有slave以及它们的状态

sentinel slaves [sentinel中自定义的master名]

#返回指定master的ip和端口，如果正在进行failover或者failover已经完成，将会显示被提升为master的slave的ip和端口

sentinel get-master-addr-by-name [sentinel中自定义的master名]

#重置名字匹配该正则表达式的所有的master的状态信息，清楚其之前的状态信息，以及slaves信息

sentinel reset [sentinel中自定义的master名]

#列出指定名称下其他sentinel信息

sentinel sentinels [sentinel中自定义的master名]

#当主服务器失效时，在不询问其他Sentinel意见的情况下,强制开始一次自动故障迁移，但是它会给其他sentinel发送一个最新的配置，其他sentinel会根据这个配置进行更新

sentinel failover [sentinel中自定义的master名]

哨兵节点的增加和删除

增加sentinal，会自动发现。删除sentinal的步骤：

（1）停止sentinal进程

（2）SENTINEL RESET *，在所有sentinal上执行，清理所有的master状态

（3）SENTINEL MASTER mastername，在所有sentinal上执行，查看所有sentinal对数量是否达成了一致

故障转移流程

1、由sentinel主动发起failover或者发现主服务器已经进入客观下线状态。

2、sentinel对我们的当前纪元(epoch)进行自增，并尝试在这个纪元中当选为此次failover的总指挥。

3、如果当选失败，那么在设定的故障迁移超时时间的两倍之后，重新尝试当选。如果当选成功，那么执行以下步骤。

4、选出一个从redis实例，并将它升级为主redis实例。

5、向被选中的从redis实例发送SLAVEOF NO ONE 命令，让它转变为主redis实例。

6、通过发布与订阅功能，将更新后的配置传播给所有其他Sentinel，其他 Sentinel对它们自己的配置进行更新。

7、向已下线主服务器的从服务器发送SLAVEOF命令，让它们去复制新的主服务器。

8、当所有从redis实例都已经开始复制新的主redis实例时，领头Sentinel 终止这次故障迁移操作。

日志说明

+reset-master <instance details> ：主服务器已被重置。

+slave <instance details> ：一个新的从服务器已经被 Sentinel 识别并关联。

+failover-state-reconf-slaves <instancedetails> ：故障转移状态切换到了reconf-slaves 状态。

+failover-detected <instance details>：另一个 Sentinel 开始了一次故障转移操作，或者一个从服务器转换成了主服务器。

+slave-reconf-sent <instance details>：领头（leader）的 Sentinel 向实例发送了 SLAVEOF 命令，为实例设置新的主服务器。

+slave-reconf-inprog <instancedetails> ：实例正在将自己设置为指定主服务器的从服务器，但相应的同步过程仍未完成。

+slave-reconf-done <instance details>：从服务器已经成功完成对新主服务器的同步。

-dup-sentinel <instance details> ：对给定主服务器进行监视的一个或多个 Sentinel 已经因为重复出现而被移除 —— 当 Sentinel 实例重启的时候，就会出现这种情况。

+sentinel <instance details> ：一个监视给定主服务器的新 Sentinel 已经被识别并添加。

+sdown <instance details> ：给定的实例现在处于主观下线状态。

-sdown <instance details> ：给定的实例已经不再处于主观下线状态。

+odown <instance details> ：给定的实例现在处于客观下线状态。

-odown <instance details> ：给定的实例已经不再处于客观下线状态。

+new-epoch <instance details> ：当前的纪元（epoch）已经被更新。

+try-failover <instance details> ：一个新的故障迁移操作正在执行中，等待被大多数 Sentinel 选中（waiting to be elected by themajority）。

+elected-leader <instance details> ：赢得指定纪元的选举，可以进行故障迁移操作了。

+failover-state-select-slave <instancedetails> ：故障转移操作现在处于select-slave 状态 —— Sentinel 正在寻找可以升级为主服务器的从服务器。

no-good-slave <instance details> ：Sentinel 操作未能找到适合进行升级的从服务器。Sentinel 会在一段时间之后再次尝试寻找合适的从服务器来进行升级，又或者直接放弃执行故障转移操作。

selected-slave <instance details> ：Sentinel 顺利找到适合进行升级的从服务器。

failover-state-send-slaveof-noone<instance details> ：Sentinel 正在将指定的从服务器升级为主服务器，等待升级功能完成。

failover-end-for-timeout <instancedetails> ：故障转移因为超时而中止，不过最终所有从服务器都会开始复制新的主服务器（slaves will eventually be configured to replicate with the newmaster anyway）。

failover-end <instance details> ：故障转移操作顺利完成。所有从服务器都开始复制新的主服务器了。

+switch-master <master name><oldip> <oldport> <newip> <newport> ：配置变更，主服务器的 IP 和地址已经改变。这是绝大多数外部用户都关心的信息。

+tilt ：进入 tilt 模式。

-tilt ：退出 tilt 模式

注意事项：

1、由于redis服务端和jedis客户端对读写分离支持的并不友好，所以基于当前结构，要实现真正意义上的读写分离，还需要修改jedis源码或进行二次封装，成本较高。实际上，在后期缓存数据较多时或读压力较大时，redis官方更推荐以集群（cluster）的方式存储数据（slot），多个slot将热点数据分散，主从+故障转移保证redis的高可用。

2、本文所讲的高可用基于实现（单）master节点的高可用（后期实现master cluster，集群中每个master的高可用与本文一致，即主从+故障转移(master cluster下的故障转移不是基于哨兵机制)）

3、一主多从也属于redis集群的一种

Redis高可用(2.1)：故障转移（哨兵）

猜你喜欢