Tair 架构原理

Tair总体结构

一个Tair集群主要包括3个必选模块：config server、data server和client，以及一个可选模块：invalid server。

通常情况下，一个集群中包含2台config server及多台data server。两台config server互为主备并通过维护和data server之间的心跳获知集群中存活可用的data server，构建数据在集群中的分布信息（对照表）。Data server负责数据的存储，并按照config server的指示完成数据的复制和迁移工作。 Client在启动的时候，从config server获取数据分布信息，根据数据分布信息和相应的data server交互完成用户的请求。 Invalid server主要负责对等集群的删除和隐藏操作，保证对等集群的数据一致。

从架构上看，config server的角色类似于传统应用系统的中心节点，整个集群服务依赖于config server的正常工作。但实际上相对来说， tair的config server是非常轻量级的，当正在工作的服务器宕机的时候另外一台会在秒级别时间内自动接管。而且，如果出现两台服务器同时宕机的最恶劣情况，只要应用服务器没有新的变化，tair依然服务正常。而有了config server这个中心节点，带来的好处就是应用在使用的时候只需要配置config server的地址（现在可以直接配置Diamond key），而不需要知道内部节点的情况。

tair架构图

1 ConfigServer的功能

负责管理所有的data server, 维护data server的状态信息。

通过维护和dataserver心跳来获知集群中存活节点的信息
根据存活节点的信息来构建数据在集群中的分布表。
提供数据分布表的查询服务。
调度dataserver之间的数据迁移、复制。

2 DataServer的功能

对外提供各种数据服务, 并以心跳的形式将自身状况汇报给config server。

提供存储引擎
接受client的put/get/remove等操作
执行数据迁移，复制等
插件：在接受请求的时候处理一些自定义功能
访问统计

3 InvalidServer的功能

接收来自client的invalid/hide等请求后，对属于同一组的集群（双机房独立集群部署方式）做delete/hide操作，保证同一组集群的一致。
集群断网之后的，脏数据清理。
访问统计。

4 client的功能

在应用端提供访问Tair集群的接口。
更新并缓存数据分布表和invalidserver地址等。
LocalCache，避免过热数据访问影响tair集群服务。
流控

Tair的负载均衡

Tair的分布采用的是一致性哈希算法。对于所有的key，分配到Q个桶中，桶是负载均衡和数据迁移的基本单位。 Config server根据一定的策略把每个桶指派到不同的data server上。因为数据按照key做hash算法，所以可以认为每个桶中的数据基本是平衡的，保证了桶分布的均衡性，就保证了数据分布的均衡性。

增加或者减少data server的时候会发生什么

当有某台data server故障不可用的时候，config server会发现这个情况，config server负责重新计算一张新的桶在data server上的分布表，将原来由故障机器服务的桶的访问重新指派到其它的data server中。这个时候，可能会发生数据的迁移。比如原来由data server A负责的桶，在新表中需要由B负责。而B上并没有该桶的数据，那么就将数据迁移到B上来。同时config server会发现哪些桶的备份数目减少了，然后根据负载情况在负载较低的data server上增加这些桶的备份。当系统增加data server的时候，config server根据负载，协调data server将它们控制的部分桶迁移到新的data server上。迁移完成后调整路由。当然，系统中可能出现减少了某些data server，同时增加另外的一些data server。处理原理同上。每次路由的变更，config server都会将新的配置信息推给data server。在客户端访问data server的时候，会发送客户端缓存的路由表的版本号。如果data server发现客户端的版本号过旧，则会通知客户端去config server取一次新的路由表。如果客户端访问某台data server 发生了不可达的情况(该 data server可能宕机了)，客户端会主动去config server取新的路由表。

发生迁移的时候data server如何对外提供服务

当迁移发生的时候，我们举个例子，假设data server A 要把桶 3,4,5 迁移给data server B。因为迁移完成前，客户端的路由表没有变化，客户端对 3，4，5的访问请求都会路由到A。现在假设3还没迁移，4正在迁移中，5已经迁移完成。那么如果是对3的访问，则没什么特别，跟以前一样。如果是对5的访问，则A会把该请求转发给B，并且将B的返回结果返回给客户。如果是对4的访问，在A处理，同时如果是对4的修改操作，会记录修改log。当桶4迁移完成的时候，还要把log发送到B，在B上应用这些log。最终A、B上对于桶4来说，数据完全一致才是真正的迁移完成。当然，如果是因为某data server宕机而引发的迁移，客户端会收到一张中间临时状态的分配表。这张表中，把宕机的data server所负责的桶临时指派给有其备份data server来处理。这个时候，服务是可用的，但是负载可能不均衡。当迁移完成之后，才能重新达到一个新的负载均衡的状态。

桶在data server上分布时的策略

程序提供了两种生成分配表的策略，一种叫做负载均衡优先，一种叫做位置安全优先。我们先看负载优先策略。当采用负载优先策略的时候，config server会尽量的把桶均匀的分布到各个data server上。所谓尽量是指在不违背下面的原则的条件下尽量负载均衡。

扫描二维码关注公众号，回复： 191393 查看本文章

每个桶必须有COPY_COUNT份数据
一个桶的各份数据不能在同一台主机上。

位置安全优先原则是说，在不违背上面两个原则的条件下，还要满足位置安全条件，然后再考虑负载均衡。位置信息的获取是通过 _pos_mask(参见安装部署文档中关于配置项的解释) 计算得到。一般我们通过控制 _pos_mask 来使得不同的机房具有不同的位置信息。那么在位置安全优先的时候，必须被满足的条件要增加一条，一个桶的各份数据不能都位于相同的一个位置(不在同一个机房)。这里有一个问题，假如只有两个机房，机房1中有100台data server，机房2中只有1台data server。这个时候，机房2中data server的压力必然会非常大。于是这里产生了一个控制参数_build_diff_ratio(参见安装部署文档)。当机房差异比率大于这个配置值时，config server也不再build新表。机房差异比率是如何计出来的呢？首先找到机器最多的机房，不妨设为RA，data server数量是SA。那么其余的data server的数量记做SB。则机房差异比率=|SA – SB|/SA。因为一般我们线上系统配置的COPY_COUNT是3。在这个情况下，不妨设只有两个机房RA和RB，那么两个机房什么样的data server数量是均衡的范围呢？当差异比率小于 0.5的时候是可以做到各台data server负载都完全均衡的. 这里有一点要注意，假设RA机房有机器6台，RB有机器3台。那么差异比率 = 6 - 3/6 = 0.5。这个时候如果进行扩容，在机房A增加一台data server，扩容后的差异比率 = 7 - 3/7 = 0.57。也就是说，只在机器数多的机房增加data server会扩大差异比率。如果我们的_build_diff_ratio配置值是0.5。那么进行这种扩容后，config server会拒绝再继续build新表。

Tair的一致性和可靠性问题

分布式系统中的可靠性和一致性是无法同时保证的，因为我们必须允许网络错误的发生。tair采用复制技术来提高可靠性，并且为了提高效率做了一些优化，事实上在没有错误发生的时候，tair提供的是一种强一致性。但是在有data server发生故障的时候，客户有可能在一定时间窗口内读不到最新的数据。甚至发生最新数据丢失的情况。

Tair提供的客户端

Tair的server端是C++写的，因为server和客户端之间使用socket通信，理论上只要可以实现socket操作的语言都可以直接实现成tair客户端。目前实际提供的客户端有java 和 C++。客户端只需要知道config server的位置信息就可以享受tair集群提供的服务了。