zookeeper 集群不可用小结

今天遇到一个问题,zookeeper集群有5台机器,其中有一台由于硬件故障挂掉了,结果整个集群都不可用。

后来查了一下原因原来是syncLimit配置为5,这个配置表示sync的timeout有5个tick,tickTime我们配置的2000ms,那么就是10S,看了一下zk的data数据有200MB,在10S内其实不一定能同步完成,每次zk选举都会同步data,由于syncLimit设置的太短,失败之后再次重新选举,然后再次超时,导致集群不可用

解决方案很简单,调大syncLimit.

猜你喜欢

转载自san-yun.iteye.com/blog/2167055