0476-Cloudera Agent服务tmpfs文件系统cm_processes空间不足分析

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。
Fayson的github:
https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢

1

文档编写目的

Cloudera Manager Agent服务默认使用的tmpfs临时文件系统,是一种基于内存的文件系统。临时文件系统的大小也就在10GB左右,当Cloudera Manager Agent产生了大量数据时,挂载在/run/cloudera-scm-agent/process或/var/run/cloudera-scm-agent/process上的tmpfs文件系统空间会被占满。本篇文章Fayson主要介绍如何解决该问题,并从配置上进行修改以防止以后发生这种问题。

  • 测试环境

1.RedHat7.2

2.CM和CDH版本为5.15.0

2

tmpfs文件系统症状及影响

由于Cloudera Manager Agent的所有操作记录输出的日志均写入挂载的/run/cloudera-scm-agent/process或/var/run/cloudera-scm-agent/process上的tmpfs文件系统。在操作系统遇到大量的内核日志记录,可能会导致该文件系统你那个空间被占满。

cm_processes文件系统是tmpfs类型的,它不会以持久的方式将数据写到磁盘。Tmpfs文件系统使用物理内存(默认情况下高达50%的RAM),如果有其它应用将服务器上内存耗尽,则该文件系统会使用交换空间,此时可能会导致严重的性能问题,交换或文件系统挂起。

扫描二维码关注公众号,回复: 8813308 查看本文章

3

立即解决方法

在遇到这种问题的时候,如果要立即解决该问题使Cloudera Manager Agent服务正常运行,在命令行以root身份运行以下命令:

service cloudera-scm-agent next_start_clean
service cloudera-scm-agent next_stop_hard
service cloudera-scm-agent stop
service cloudera-scm-agent start

4

修改Agent配置

对于上一步的临时解决方法,考虑到未来同样的问题还是会出现,这里需要对Cloudera Manager Agent服务的配置进行一定的修改,消除存在的隐患。

需要在集群的各个节点修改/etc/cloudera-scm-agent/config.ini文件,通过修改如下参数来控制历史进程目录的数量。

# The orphan process directory staleness threshold. If a diretory is more stale
# than this amount of seconds, CM agent will remove it.
orphan_process_dir_staleness_threshold=5184000

# The orphan process directory refresh interval. The CM agent will check the
# staleness of the orphan processes config directory every this amount of
# seconds.
orphan_process_dir_refresh_interval=3600

orphan_process_dir_staleness_threshold:参数控制历史进程目录超过该时间则会Agent服务自动删除。

orphan_process_dir_refresh_interval:Agent服务通过该参数来控制检查频率。

完成以上配置参数的修改后,则需要执行重启cloudera-scm-agent服务的命令使其生效。

service cloudera-scm-agent restart

5

总结

1.对于Cloudera Manager Agent服务使用的tmpfs临时文件系统空间使用情况也需要做好相应的处理及监控,否则会导致Agent服务出现严重的性能问题。

2.对于配置较短的清理历史进程目录唯一的负面影响是,可能会导致无法查看进行启动的sterr/stdout日志,影响无法诊断问题。

提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

发布了325 篇原创文章 · 获赞 14 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/Hadoop_SC/article/details/104066981