Zookeeper的原理（zk角色与选主过程与数据同步）

1. 集群的角色描述

在这里插入图片描述

2.ZooKeeper 工作流程

（1）Leader工作流程
Leader 主要有三个功能：
1、恢复数据
2、维持与 Learner 的心跳，接收 Learner 请求并判断 Learner 的请求消息类型

Learner 的消息类型主要：
PING 消息：Learner 的心跳信息
REQUEST 消息：Follower 发送的提议信息，包括读写请求
ACK 消息：Follower 对提议的回复，超过半数的 Follower 通过，则 commit 该提议
REVALIDATE 消息：用来延长 SESSION 有效时间

3、根据不同的消息类型，进行不同的处理。

（2）follower工作流程

Follower 主要有四个功能：
1、向 Leader 发送请求（PING 消息、REQUEST 消息、ACK 消息、REVALIDATE 消息）；
2、接收 Leader 消息并进行处理；
3、接收 Client 的请求，如果为写请求，则转发给 Leader；
4、返回 Client 结果。

Follower 的消息循环处理如下几种来自 Leader 的消息：
1、PING 消息： 心跳消息；
2、PROPOSAL 消息：Leader 发起的提案，要求 Follower 投票；
3、COMMIT 消息：服务器端最新一次提案的信息；
4、UPTODATE 消息：表明同步完成；
5、REVALIDATE 消息：根据 Leader 的 REVALIDATE 结果，关闭待 revalidate 的 session 还是允
许其接受消息；
6、SYNC 消息：返回 SYNC 结果到客户端，这个消息最初由客户端发起，用来强制得到最新
的更新。

（3）Observer 工作流程
Observer 流程和 Follower 的唯一不同的地方就是 Observer 不会参加 Leader 发起的投票，也不会被选举为 Leader，所以不重复描述了

3.zk选主过程

选主分为全新集群选主(过半选举)，非全新集群选主

全新集群选主

根据启动的顺序和id进行选主（过半机制：集群中超过半数的集群可使用时，才开始选主）

以一个简单的例子来说明整个选举的过程：
假设有五台服务器组成的 zookeeper 集群，它们的 serverid 从 1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务器依序启动，来看看会发生什么

1、服务器 1 启动，此时只有它一台服务器启动了，它发出去的报没有任何响应，所以它的选举状态一直是 LOOKING 状态
2、服务器 2 启动，它与最开始启动的服务器 1 进行通信，互相交换自己的选举结果，由于两者都没有历史数据，所以 id 值较大的服务器 2 胜出，但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是 3)，所以服务器 1、2 还是继续保持 LOOKING
状态
3、服务器 3 启动，根据前面的理论分析，服务器 3 成为服务器 1,2,3 中的老大，而与上面不同的是，此时有三台服务器(超过半数)选举了它，所以它成为了这次选举的 leader
4、服务器 4 启动，根据前面的分析，理论上服务器 4 应该是服务器 1,2,3,4 中最大的，但是由于前面已经有半数以上的服务器选举了服务器 3，所以它只能接收当小弟的命了
5、服务器 5 启动，同 4 一样，当小弟

总结：
zookeeper server 的三种工作状态
LOOKING：当前 Server 不知道 leader 是谁，正在搜寻，正在选举
LEADING：当前 Server 即为选举出来的 leader，负责协调事务
FOLLOWING：leader 已经选举出来，当前 Server 与之同步，服从 leader 的命令

非全新集群选主

那么，初始化的时候，是按照上述的说明进行选举的，但是当 zookeeper 运行了一段时间之后，有机器 down 掉，重新选举时，选举过程就相对复杂了。
需要加入数据 version、serverid 和逻辑时钟。

数据 version：数据新的 version 就大，数据每次更新都会更新 version
server id：就是我们配置的 myid 中的值，每个机器一个
逻辑时钟：这个值从 0 开始递增，每次选举对应一个值，也就是说：如果在同一次选举中，那么这个值应该是一致的；逻辑时钟值越大，说明这一次选举 leader 的进程更新，也就是每次选举拥有一个 zxid，投票结果只取 zxid 最新的

选举的标准就变成：
逻辑时钟–> 数据version --> serverid
1、逻辑时钟小的选举结果被忽略，重新投票
2、统一逻辑时钟后，数据 version 大的胜出
3、数据 version 相同的情况下，server id 大的胜出

根据这个规则选出 leader。

4.zk数据同步

选完 leader 以后，zk 就进入状态同步过程。
1、leader 等待 server 连接；
2、follower 连接 leader，将最大的 zxid 发送给 leader；
3、leader 根据 follower 的 zxid 确定同步点；
4、完成同步后通知 follower 已经成为 uptodate 状态；
5、follower 收到 uptodate 消息后，又可以重新接受 client 的请求进行服务了。

详细流程讲解
1.follower连接leader并发送自己最大的zixd
2.leader进行对比，将自己最大的zxid和follower发送过来的zxid进行对比，如果leader的zxid大于follower的，则通知follower进行数据同步
3.follower发送数据同步请求
4.leader确定当前的follower的数据同步点（从follower最大的zxid到leader最大的zxid之间数据需要同步）
5.follower开始同步数据，这个过程不对外提供读写服务。
6.follower同步完成，发送消息给leader
7.leader就会修改当前的follower的状态为update，这个时候follower就可以接受客户端的读写请求，但是只能读，如果是写入请求，需要转发给leader

以下是流程图：
在这里插入图片描述