RocketMQ 集群踩坑记

集群节点进程神秘消失

现象描述

接到告警和运维反馈,一个 RocketMQ 的节点不见了。此类现象在以前从未发生过,消失肯定有原因,开始查找日志,从集群的 broker.log、stats.log、storeerror.log、store.log、watermark.log 到系统的 message 日志没发现错误日志。集群流量出入在正常水位、CPU 使用率、CPU Load、磁盘 IO、内存、带宽等无明显变化。

原因分析

继续查原因,最终通过 history 查看了历史运维操作。发现运维同学在启动 Broker 时没有在后台启动,而是在当前 session 中直接启动了。

sh bin/mqbroker -c conf/broker-a.conf

问题即出现在此命令,当 session 过期时 Broker 节点也就退出了。

解决方法

标准化运维操作,对运维的每次操作进行评审,将标准化的操作实现自动化运维就更好了。

正确启动 Broker 方式:

nohup sh bin/mqbroker -c conf/broker-a.conf &

Master 节点 CPU 莫名飙高

现象描述

RocketMQ 主节点 CPU 频繁飙高后回落,业务发送超时严重,由于两个从节点部署在同一个机器上,从节点还出现了直接挂掉的情况。

主节点 CPU 毛刺截图:

猜你喜欢

转载自blog.csdn.net/prestigeding/article/details/109335906
今日推荐