记一次系统错误问题的排查经验-----sh: can't fork

        最近系统出现了一个莫名其妙的问题,就是运行一段时间之后出现了很多奇怪的异常现象,所以第一反应是看一下进程的运行情况、内存占用情况和cpu利用情况,但是更加奇怪的问题是无论是运行ps还是free都出现了sh: can't fork的错误信息,这是什么鬼东西,去Google搜索了各种资料(不要问我怎么上的Google,你懂的),没有得到任何有用的信息,所以智能靠感觉定位了额,既然没办法fork,可能是内存被占用完了,那么目前就需要确认系统的内存使用情况。

       1、free命令用不了,ls也出现报错,通过各种方式最后在/proc路径下vi meminfo看到了内存信息,内容如下:

        MemTotal:       16357468 kB
        MemFree:         4878352 kB
        MemAvailable:    7485820 kB
        Buffers:          538576 kB
        Cached:          1894516 kB

       发现内存还有4个多G没使用完,那么就能排除内存不足导致的fork出现错误了。

      2、既然不是内存问题,那么还有什么原因导致了,我查了fork的相关接口代码,发现fork主要动作是创建子进程,创建子进程如果内存充足怎么会创建失败呢?后来搜到一个命令ulimit -a查看系统当前用户的资源限制信息,才知道可能是线程数超过了系统的最大限制数量,从而导致的fork失败的发生。为了验证这个猜想我查看了ulimit -a命令结果:

HH:~#ulimit -a
        -f: file size (blocks)             unlimited
        -t: cpu time (seconds)             unlimited
        -d: data seg size (kb)             unlimited
        -s: stack size (kb)                8192
        -c: core file size (blocks)        unlimited
        -m: resident set size (kb)         unlimited
        -l: locked memory (kb)             64
        -p: processes                      63893
        -n: file descriptors               65535
        -v: address space (kb)             unlimited
        -w: locks                          unlimited
        -e: scheduling priority            0
        -r: real-time priority             0

发现系统限制的最大线程数为63893。由于许多美丽没法执行,所以就杀掉一个已知进程号的进程,幸好kill可以使用,通过kill -15 XXX和kill -9 XXX杀掉一个进程之后,很多操作就能进行了,没有再出现can't fork的报错,所以该问题就锁定了原因:创建线程的数量超过了系统限制该用户创建的数量,所以就出现了异常。

猜你喜欢

转载自blog.csdn.net/u012865796/article/details/85319596