TiDB3.0.2版本某业务TiKV宕机测试

1、汇总

1.1、概述

信息: 版本2.1.0 master版本,tidb实例3个,tikv机器4台(实例14个)

问题:线上某tidb集群的tikv机器宕机后,QPS表现直接至0,且恢复时间较长,几十分钟级别,且需要宕机的机器起来后,才能快速恢复业务 

处理:升级, 2.1.0 master 版本 至  3.0.2  版本

测试: 进行TiKV宕机测试(上面包含4个tikv实例)

1.2、测试汇总

此处:感谢官方支持升级~

2、具体

2.1、拓扑

3个tidb上层是 DNS 与TGW,流量被负载至3个tidb实例 

tikv机器,单机4个tikv实例 

2.2、集群信息

数据量:9T 

regions:14w

郑州不孕不育医院:http://jbk.39.net/yiyuanzaixian/zztjyy/

2.3、宕机

关闭某tikv机器,上面有4个tikv实例

2.4、监控情况

可以从监控看出:QPS有短暂的下降, 1500左右下降至 1000左右,大约影响时间 30s内

再次开启后,QPS有下降, 1500下降至 1000左右,大约影响时间 1分半钟左右

2.5、业务反馈

业务反映:没有发现业务异常与报错


猜你喜欢

转载自blog.51cto.com/14510269/2432058