rocketmq 主从切换机制

原文:https://www.jianshu.com/p/08850de70ec0

之前看rocketmq,然后在想一个问题,就是一主一从的集群结构中,如果master宕机了,consumer这边是怎么选择的,按照官方说明中,master挂了,但是slave得消息仍然可以被消费到。原因是master和slave是一直有连接的,所以master上面的消息是可以及时同步到slave,但是终究是有一部分留在master(异步复制)的时候。

       那么问题来了,consumer是怎么从master上面切换到slave上继续消费消息呢?首先明确一点,master宕机,就意味着这个broker不再写入,但是因为slave还在,所以还可以继续读。所以我们看一下consumer是怎么选择的?

从Pullconsumer 进去,调用pullBlockIfNotFound方法,一直进去,最后到:DefaultMQPullConsumerImpl的pullSyncImpl  方法,最后看到这段:

PullResult pullResult =this.pullAPIWrapper.pullKernelImpl(mq,suçbscriptionData.getSubString(),0L,offset,maxNums,sysFlag,0,this.defaultMQPullConsumer.getBrokerSuspendMaxTimeMillis(),timeoutMillis,CommunicationMode.SYNC,null);

进去看一下实现:

FindBrokerResult findBrokerResult =

this.mQClientFactory.findBrokerAddressInSubscribe(mq.getBrokerName(),

this.recalculatePullFromWhichNode(mq),false);

其实这段也很好理解,就是先根据订阅的关系找到broker。是根据broker的名字和id共同起作用的。broker的名字肯定能够拿到一堆broker的id,一般都是一主多从,那这个怎么选呢?

进去看看就知道了:

HashMap map =this.brokerAddrTable.get(brokerName);

if(map !=null&& !map.isEmpty()) {

brokerAddr = map.get(brokerId);

slave = brokerId != MixAll.MASTER_ID;

found = brokerAddr !=null;

if(!found && !onlyThisBroker) {

Entry entry = map.entrySet().iterator().next();

brokerAddr = entry.getValue();

slave = entry.getKey() != MixAll.MASTER_ID;

found =true;

}

}

先拿到broker的缓存,其实就是存在本地的hashmap,然后根据broker的id查找,如果找到了,判断下是不是slave角色返回,找不到的情况下就根据那拿到的列表迭代一个出来,考虑到时无序的,所以就可以理解为随机拿一个出来了,再判定角色。

所以传进来的brokerId非常重要,如果这台机器没有宕机的情况下,就是返回这个broker的地址了,否则就是从剩下的机器进行随机一个。

那传进去的brokerId是怎么产生的呢?

public longrecalculatePullFromWhichNode(finalMessageQueue mq) {

if(this.isConnectBrokerByUser()) {

return this.defaultBrokerId;

}

AtomicLong suggest =this.pullFromWhichNodeTable.get(mq);

if(suggest !=null) {

returnsuggest.get();

}

returnMixAll.MASTER_ID;

}

传入的mq是负载均衡服务分配给当前consumer消费的队列,它必然是属于一个brokername唯一的拓扑结构中,即一主多从的几台机器中,从哪个机器选就很重要了,因为都可以选的。

1.先看isConnectBrokerByUser 是否设置,如果设置,返回默认的,即0.

2.看缓存中是否已经存了建议值,如果存了,直接返回

3.返回master的,即0.

那到这里,我们看一下怎么解释一下宕机时主从切换过程,consumer时如何从主上面切换到从上面的?

1.一开始时正常的,因为没有缓存,也没有特别设置,所以,进入3 返回master。

2.master 写入缓存,后面都读取到缓存,在上面的步骤2中返回。

master宕机了,然后nameserver中不再收到心跳,然后master机器剔除掉。所以consumer虽然选到了master,但是因为在地址中找不到broker'id=0的数据,于是进入随机过程,然后这样就切到了slave,然后slave写入到缓存。后面一直读到缓存中的slave。

问题来了:master起来后,建议值的缓存也没有更新,那怎么切回到master,毕竟我们是因为宕机产生地址找不到的时候,才能完成切换的,这解释不通。


后来debug了一发,发现这个suggest值并不是consumer端决定的,而是broker决定的。啥意思,即使你是拉去slave上面的数据,slave上面返回的结果中的suggest值也可能是0,然后0就写进缓存中,下一次,你还是优先访问master,然后master没有地址,访问slave。

这个意思就是,consumer端是根据缓存中的suggest值优先选机器。但是呢这个suggest是通过broker传回来的。所以即使是访问slave,传回来的suggest值仍然是master,只不过客户端没有master的映射关系,所以继续访问slave。这就能解释为什么master从宕机起来后,consumer能够切回master,因为地址映射表得到更新了,nameserver中有了master的信息了。

那么重点来了:

什么时候,broker返回的建议值是0?

什么时候,broker返回的建议值是其他值?

1.如果master中的堆积信息过多,默认返回consumerslow配置,默认是1.(所以机器的brokerId真的不能乱用),这个时候就切到slave了。



作者:霹雳007
链接:https://www.jianshu.com/p/08850de70ec0
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

猜你喜欢

转载自blog.csdn.net/notonlyrush/article/details/80386986