HMaster的failover 流程(二) - 代码天地

HMaster的failover 流程(二)

数据库 2018-06-02 05:39:55 阅读次数: 0

继续上一篇的master failover流程

master挂掉期间没有regionserver挂掉的情况。

昨天写着写着突然发现90 failover存在一个bug，今天测试了一下，果然存在。

当master处理zk上面的unassigned节点时，首先会去getchlidren。这个函数会获取zk unassigned节点

set watch（该节点删除触发nodedeleted事件，有子节点创建删除会触发nodeChildrenchanged）然后会对

unassigned下所有节点getdata(watch)并set watch。如果这些节点有些值为M_ZK_REGION_OFFLINE,会将该

region的regionstate置为offline，并加入rit队列，然后清空内存并重新assign出去。

这样做的目的是由于当ZK上该region的节点时offline时认为此时该region尚未open，需要重新分配。

但是有一个问题是如果这个时候region open的rpc请求已经发送出去了，那么在那台rs上面会继续处理open region这

个事件这样可能造成几个现象：

1.当rs把region open以后，master开始assign，那么该region就有可能被重新分配两次。

2.rs open region以后master assign到同一台机器，那么该assign过程中止，但是master 内存中该region数据已经

清空导致该无法进行banlance等操作。

3.由于assign动作中止，RIT中存在该region的数据且并未清除，当超时时间到以后，会重新assign，但是由于rit中的数

据和zk上的数据不匹配导致该region的数据一致存在RIT中，而且不分配，无法balance

该问题复现概率比较小，主要是由于master启动failover该查到的region在zk上处于offline状态，而且此时rs还在处理该

region。即在rs更新zk的offline状态到opening之间，failover启动并且开始assign。若要重现可在rs处理的过程sleep

一段时间，然后重启master。（ms rs发生gc时该问题可能出现概率比较大）

猜你喜欢

转载自punishzhou.iteye.com/blog/1569392

HMaster的failover 流程(二)

HMaster的failover 流程(三)

HMaster的failover 流程

HMaster启动流程

failover？

Flink——Task退出流程与Failover机制

oracle 12.2.0.1 使用 active dataguard broker 之二 failover

hadoop 之 hbase 原理 (hmaster, hregionserver, zookeeper, 读写流程及组件职责)

kafka(三)：数据生产流程，数据复制与Replica Failover

failover机制

ASA Failover

MySQL高可用方案 MHA之二 master_ip_failover

Hbase的Hmaster配置

Hbase-HMaster架构

HMaster启动源码分析

HBase HMaster Architecture

hbase代码学习-HMaster

HMaster节点无故挂掉

HBase如何识别HMaster

关于vertica的Connection Failover

failover机制的学习

ActiveMQ失效转移（Failover）

关于Failover协议的使用

Redis主从自动failover

RAC FAILover详解(原创)

redis 4.0.9 cluster + failover

master_ip_failover

Kafka数据复制与Failover

ASA failover --AA

Oracle DG Failover 操作

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)