Linux进程OOM-kill 监控和规避

 目录

一、proc目录简介

二、Linux OOM机制说明

1、OOM killer机制

2、寻找系统中最先被OOM kill的进程

3、修改 oom_score_adj


一、proc目录简介


      proc是linux系统中的一个虚拟文件系统,它实际上不含有任何真正的文件,/proc中的文件如同linux内核中的内部数据结构的接口,通过这些接口,我们可以在系统运行时获取系统信息或者改变内核参数。proc放置的数据都是在内存当中,例如系统内核、进程、外部设备的状态及网络状态等。因为这个目录下的数据都是在内存当中,所以本身不占任何硬盘空间。

/proc文件系统包含有每个进程的目录,每个进程由其PID号表示的文件夹表示,例如 进程6111相关信息存放在/proc/61111中


二、Linux OOM机制说明


在工作过程中,你可能会遇到过这种情况,程序在运行一段时间之后突然挂掉,在你保证程序在正常情况下不会挂掉的情况下,程序挂掉的原因可能是在你的程序运行过程中,有一段时间你的程序运行内存过大,而此时系统物理内存不足,导致系统触发OOM killer机制,将该进程kill。

1、OOM killer机制


OOM killer是out-of-memory killer的缩写,它是机Liux内核的一种内存管理机制。在Linux系统内存将要用完的情况下,OOM-killer进程会遍历当前机器上的所有进程,按照进程所占内存的大小和用户打分(oom_score_adj)对进程进行打分(占用内存越大,分数越高),然后挑选出分数最高的进程将其kill掉。

2、寻找系统中最先被OOM kill的进程


一个进程的OOM-killer打分分别由系统得分和用户打分综合评判,它的具体策略是系统打分+用户打分为当前进程的最后分数。对于Linux中运行的每一个进程,都会有两个文件分别为/proc/{pid}/oom_score和/proc/{pid}/oom_score_adj来保存系统打分和用户打分。

oom_score:系统打分是根据当前进程当前时间占用内存计算,占用内存越多,分数越高。

oom_score_adj: 用户打分为用户写入,范围是-1000~1000。若进制OOM kill掉当前进程,可以将该进程的oom_score_adj设置为-1000。

所以我们可以通过Linux中进程运行过程中保存的oom_score和oom_score_adj文件,来找到最先被系统oom-kill的进程。可使用下面脚本来搜索优先被OOM_kill的进程

dir=`ls -l /proc |awk '/^d/ {print $NF}'`
result_process=0
result_score=0

for i in $dir
do
	oom_score=0
	oom_score_adj=0

	if [ -f "/proc/$i/oom_score" ]
		then
			oom_score=`cat /proc/$i/oom_score`
	fi

	if [ -f "/proc/$i/oom_score_adj" ]
		then
			oom_score_adj=`cat /proc/$i/oom_score_adj`
	fi

	process_score=`expr $oom_score + $oom_score_adj`

	if [ $i != "1" ] && [ $process_score -gt $result_score ]
		then
			result_score=$process_score
			result_process=$i
	fi
done

echo $result_process,$result_score

3、修改 oom_score_adj


修改进程oom_score_adj的值为-1000避免该进程被kill。

非 root 用户要拥有sudo权限 
sudo sh -c "echo -1000 > /proc/12378/oom_score_adj"
非 root 用户要拥有sudo权限 
sudo sh -c "echo -1000 > /proc/12378/oom_score_adj"


sh -c "echo -200 > /proc/12656/oom_score_adj" 
sh -c "echo -200 > /proc/12675/oom_score_adj"

我们将Azkaban-web和Azkaban-exe两个进程的oom_score_adj 修改下

简单写个监控Azkaban进程启动脚本

#!/bin/bash

#监控azkaban
set -x

#azkaban的web监控
azwebCount=`ps -ef |grep azkaban-web |grep -v "grep" |wc -l`
if [ 0 == $azwebCount ];then
	echo "${azkbanServer}机器的azkaban-web down 掉了"
	cd /hadoop/software/azkaban.3.30.1/azkaban-web/
	nohup ./bin/azkaban-web-start.sh  &  #启动azwebCount

  sleep 3s
  azWeb=$(ps -ef | grep azkaban-web | grep "AzkabanWebServer" | awk '{print $2}')
	if [ ! -z $azWeb ]
	then
	     sh -c "echo -1000 > /proc/$azWeb/oom_score_adj"
	fi
else
    echo "${azkbanServer}机器的azkaban-web 正常"
fi

#监控azkaban的exe
azexeCount=`ps -ef |grep azkaban-exe |grep -v "grep" |wc -l`
if [ 0 == $azexeCount ];then
	echo "${azkbanServer}机器的azkaban-exe down 掉了"
	cd /hadoop/software/azkaban.3.30.1/azkaban-exec/
	nohup ./bin/azkaban-executor-start.sh &  #启动azkaban-exe
      
        sleep 3s
        azExe=$(ps -ef | grep azkaban-exec | grep "AzkabanExecutorServer" | awk '{print $2}')
        if [ ! -z $azExe ]
        then
             sh -c "echo -1000 > /proc/$azExe/oom_score_adj"
        fi
else
    echo "${azkbanServer}机器的azkaban-exe 正常"
fi

echo '##################################################################################'
echo `date`

————————————————

版权声明:本文为CSDN博主「langzi989」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:Linux OOM机制详解_oom kill oom_score_adj_langzi989的博客-CSDN博客

原文链接:Linux-/proc文件系统_linux /proc/$$_hhhnoone的博客-CSDN博客

Linux 服务器 OOM 分析_linux oom demsg_开着拖拉机回家的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/qq_35995514/article/details/131562450
今日推荐