cloudera-scm-agent 已死,但 pid 文件存在

问题:cloudera-scm-agent已死,但pid文件存在

背景: 公司因为周末停电,所以关闭了cloudera集群。这是启动集群的时候出现的问题
在这里插入图片描述
定位错误的过程:
首先查看cloudera-scm-server的日志,发现日志刷到出现7180端口的过程中有一个小小的Exception,似乎与图中的这个错误无关。但是最后这个cloudera的登录界面是可以成功上去的。
然后就百度开始各种搜索。。。并没有搜索到有价值的信息
然后检查自己的 各项操作是否已经完善,于是将进程一个一个的中断掉,然后检查各个命令的状态,例如:

 ./cloudera-scm-server status
#cloudera-scm-server  已停止
./cloudera-scm-agent status
#cloudera-scm-agent已死,但pid文件存在

这下就有疑问了,为什么这个东西还留着一个pid文件呢
然后开始搜索如何解决这个问题:

有的人说:进入 /var/run/ 里面找到 cloudera-scm-agent里面删除这个pid文件

但是当我进去寻找这个文件的时候,并不存在这个文件!

然后我去寻找一下cloudera-scm-agent的日志,发现日志里面的内容长这样
在这里插入图片描述
接着我就依照着这个日志内容里面提到的路径,到这个路径下果然就发现了这个pid的文件。然后我就将这个文件删除了!
接着我校验了一下例如:cloudera-scm-agent的文件的status和cloudera-scm-server的status,都表示已停止的状态。
然后我就开始按照重新启动集群,嗯,成功了。。。。

总结:
在重新启动集群的之前

  • 启动cloudera的时候检查一下cloudera-scm-server的status 确保在启动之前是已经停止的状态
  • 启动cloudera的时候检查一下cloudrea-scm-agent的状态,确保在启动之前是停止的状态

如果出现了错误,首先要查看一下日志里面的内容,很大的可能里面会告诉什么原因的。

发布了56 篇原创文章 · 获赞 7 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/OldDirverHelpMe/article/details/94390225
PID
今日推荐