zookeeper 原理

简介

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务。目的是提供一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。原理：通知机制（观察者模式） + 文件系统。集群大小：奇数最好，选举条件是要求超过总数的一半。

特点

最终一致性：client不论连接到哪个Server，展示给它都是同一个视图，这是zookeeper最重要的性能。

可靠性：具有简单、健壮、良好的性能，如果消息m被到一台服务器接受，那么它将被所有的服务器接受。

实时性：Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。但由于网络延时等原因，Zookeeper不能保证两个客户端能同时得到刚更新的数据，如果需要最新数据，应该在读数据之前调用sync()接口。

等待无关（wait-free）：慢的或者失效的client不得干预快速的client的请求，使得每个client都能有效的等待。

原子性：更新只能成功或者失败，没有中间状态。

顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息a在消息b前发布，则在所有Server上消息a都将在消息b前被发布；偏序是指如果一个消息b在消息a后被同一个发送者发布，a必将排在b前面。

工作原理

Zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和leader的状态同步以后，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

为了保证事务的一致性，采用了递增的事务 id号（zxid）来表示事务。所有的提议（proposal）都在被提出的时候加上了zxid。实现中zxid是一个64位的数字，它高32位是epoch用来标识leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch，标识当前属于那个leader的统治时期。低32位用于递增计数。

选主流程

进入条件：

系统刚刚启动

leader崩溃

leader失去大多数的follower

目的：选举出一个新的Leader

方法：basic paxos和fast paxos（默认）

工作流程

Leader

主要功能：

恢复数据

维持与Learner的心跳，接收Learner请求并判断Learner的请求消息类型；

Learner的消息类型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息，根据不同的消息类型，进行不同的处理。

PING消息是指Learner的心跳信息；REQUEST消息是Follower发送的提议信息，包括写请求及同步请求；ACK消息是Follower的对提议的回复，超过半数的Follower通过，则commit该提议；REVALIDATE消息是用来延长SESSION有效时间。

Follower

功能：

向Leader发送请求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）

接收Leader消息并进行处理；

接收Client的请求，如果为写请求，发送给Leader进行投票；

返回Client结果。

消息类型：

PING消息：心跳消息

PROPOSAL消息：Leader发起的提案，要求Follower投票；

COMMIT消息：服务器端最新一次提案的信息；

UPTODATE消息：表明同步完成；

REVALIDATE消息：根据Leader的REVALIDATE结果，关闭待revalidate的session还是允许其接受消息；

SYNC消息：返回SYNC结果到客户端，这个消息最初由客户端发起，用来强制得到最新的更新。

observer

observer流程和Follower的唯一不同的地方就是observer不会参加leader发起的投票

工作流程示例

写操作

写操作时，请求发给某server，再由server转发给leader，leader给每个server发送投票消息，每个server把投票结果传给leader，要是有半数server同意此请求，leader就会commit到每个服务器执行写操作

单个follower挂掉

一个follower挂了，修复好之后会和leader通过一致性协议修复follower数据，达到每个server上数据最终一致

为什么节点的个数要求是奇数？

集群中只要有过半的机器是正常工作的，那么整个集群对外就是可用的。假设有2个节点，则如果挂掉1个节点，整个集群不可工作，即容忍度为0；假设有3个节点，则如果挂掉1个节点，整个集群正常的仍过半，仍然可以工作，即容忍度为1. 因此 2n和2n-1的容忍度是一样的，都是n-1，所以为了更高效应该为奇数。

简介

特点