Storm排错调优之Worker重启

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Simon_09010817/article/details/81738916

                                                        Storm排错调优之Worker重启

            在storm运行log中可以看到worker.log日志显示shutting  down  xxxworker。

           在相同的时间点位于storm运行日志中的supervisor.log显示kill xxx ,xxx就是对应的workerid

    从而可以断定是supervisor重启了worker。

然而supervisor为何重启worker,默认supervisor和worker之间的心跳时间是30000ms,

而运行过程中心跳远大于这一值。

所以导致重启。

但是为何supervisor和worker之间的心跳时间会如此之长,查看zookeeper的运行日志显示,

在同一时间点有几台zookeeper  shutdown 和goodBye。

而且均显示Too Many Connections  from  xxx  --max is 60。

Zk日志中均显示Unable to read additional data from client sessionid 0x664b3c031710068, likely client has closed socket

 

由此猜测是否是zookeeper最大客户端连接数为60,实际运行中和zk交互的远不止60个,导致部分connection等待,

也就是supervisor等待。等到时间超过supervisor和worker之间通信时间30000ms,最终导致HB心跳监测不到认为worker挂掉并重启worker。

 

解决:

  1. 将zk与supervisor分离,在supervisor机器上不安装zk.
  2. 将zk的最大连接数设置为0(不限制最大连接数) ,而不是默认的60

               在zoo.cgf中设置maxClientCnxns = 60

    3.(重要)加大supervisor和worker之间HB心跳时间为60

               在storm.yaml中设置supervisor.worker.timeout.secs

 

猜你喜欢

转载自blog.csdn.net/Simon_09010817/article/details/81738916
今日推荐