Linux系统R、S、D、T、Z集中进程状态的解析

Linux的进程存在多种状态，如TASK_RUNNING的运行态、EXIT_DEAD的停止态和TASK_INTERRUPTIBLE的接收信号的等待状态等等（可在include/linux/sched.h中查看）。

linux top进程状态D

什么是D状态

运行在KVM虚拟机里的一些进程突然出了问题，这些出了问题的进程无法用kill杀掉，使用ps可以看到这些进程处于D状态：

[build@build-shengwei ~]$ ps -a -o pid,ppid,stat,command
 PID  PPID STAT COMMAND
17009     1 Ds   -bash
17065     1 D    ls --color=tty -al
17577     1 D    /usr/java/jdk1.8.0_17/bin/java -Xmx512m -classpath /usr/local/a
17629     1 D    /usr/java/jdk1.8.0_17/bin/java -Xmx512m -classpath /usr/local/a

ps 的手册里说D状态是uninterruptible sleep.

Linux进程有两种睡眠状态:

一种是interruptible sleep，处在这种睡眠状态的进程是可以通过给它发信号来唤醒的，比如发HUP信号给nginx的master进程可以让nginx重新加载配置文件而不需要重新启动nginx进程；
另外一种睡眠状态是uninterruptible sleep，处在这种状态的进程不接受外来的任何信号，这也是为什么之前我无法用kill杀掉这些处于D状态的进程，无论是”kill”, “kill -9″还是”kill -15″，因为它们压根儿就不受这些信号的支配。

下面解释集中不同的进程状态

R (TASK_RUNNING)，可执行状态。

只有在该状态的进程才可能在CPU上运行。同一时刻可能有多个进程处于可执行状态，这些进程的task_struct结构（进程控制块）被放入对应CPU的可执行队列中（一个进程最多只能出现在一个CPU的可执行队列中）。进程调度器从各个CPU的可执行队列中分别选择一个进程在该CPU上运行。

正在CPU上执行的进程定义为RUNNING状态、可执行但尚未被调度执行的进程定义为READY状态，这两种状态统一为 TASK_RUNNING状态。

S (TASK_INTERRUPTIBLE)，可中断的睡眠状态。

处于这个状态的进程，因为等待某某事件的发生（比如等待socket连接、等待信号量），而被挂起。这些进程的task_struct结构被放入对应事件的等待队列中。当这些事件发生时（由外部中断触发、或由其他进程触发），对应的等待队列中的一个或多个进程将被唤醒。

进程列表中的绝大多数进程都处于TASK_INTERRUPTIBLE状态。CPU就这么一两个，进程动辄几十上百个，如果不是绝大多数进程都在睡眠，CPU将会响应不过来。

D (TASK_UNINTERRUPTIBLE)，不可中断的睡眠状态。

进程处于睡眠状态，但是此刻进程是不可中断的。不可中断，指的并不是CPU不响应外部硬件的中断，而是指进程不响应异步信号。绝大多数情况下，进程处在睡眠状态时，总是应该能够响应异步信号的。

而TASK_UNINTERRUPTIBLE状态存在的意义在于，进程对某些硬件进行操作时（比如进程调用read系统调用对某个设备文件进行读操作，而read系统调用最终执行到对应设备驱动的代码，并与对应的物理设备进行交互），可能需要使用TASK_UNINTERRUPTIBLE状态对进程进行保护，以避免进程与设备交互的过程被打断，造成设备陷入不可控的状态。这种情况下的TASK_UNINTERRUPTIBLE状态总是非常短暂的，通过ps命令基本上不可能捕捉到。

linux系统中也存在容易捕捉的TASK_UNINTERRUPTIBLE状态。执行vfork系统调用后，父进程将进入TASK_UNINTERRUPTIBLE状态，直到子进程调用exit或exec。通过下面的代码就能得到处于TASK_UNINTERRUPTIBLE状态的进程：

#include <stdio.h>
        #include <unistd.h>
        void main()
        {
                 if (!vfork());
                 sleep(100);
                 ruturn 0;
        }

编译运行，然后ps一下：

njs@njs:~/test$ ps -ax | grep a\.out
        4371 pts/0 D+ 0:00 ./a.out
        4372 pts/0 S+ 0:00 ./a.out
        4374 pts/1 S+ 0:00 grep a.out

然后我们可以试验一下TASK_UNINTERRUPTIBLE状态的威力。不管kill还是kill -9，这个TASK_UNINTERRUPTIBLE状态的父进程依然屹立不倒。

T (TASK_STOPPED or TASK_TRACED)，暂停状态或跟踪状态。

向进程发送一个SIGSTOP信号，它就会因响应该信号而进入TASK_STOPPED状态（除非该进程本身处于TASK_UNINTERRUPTIBLE状态而不响应信号）。（SIGSTOP与SIGKILL信号一样，是非常强制的。不允许用户进程通过signal系列的系统调用重新设置对应的信号处理函数。）向进程发送一个SIGCONT信号，可以让其从TASK_STOPPED状态恢复到TASK_RUNNING状态。

Z (TASK_DEAD - EXIT_ZOMBIE)，退出状态，进程成为僵尸进程。

进程在退出的过程中，处于TASK_DEAD状态。

在这个退出过程中，进程占有的所有资源将被回收，除了task_struct结构（以及少数资源）以外。于是进程就只剩下task_struct这么个空壳，故称为僵尸。之所以保留task_struct，是因为task_struct里面保存了进程的退出码、以及一些统计信息。而其父进程很可能会关心这些信息。释放掉task_struct，则需要建立一些新的数据结构，以便让父进程找到它的子进程的退出信息。

父进程可以通过wait系列的系统调用（如wait4、waitid）来等待某个或某些子进程的退出，并获取它的退出信息。然后wait系列的系统调用会顺便将子进程的尸体（task_struct）也释放掉。子进程在退出的过程中，内核会给其父进程发送一个信号，通知父进程来“收尸”。这个信号默认是SIGCHLD，但是在通过clone系统调用创建子进程时，可以设置这个信号。

通过下面的代码能够制造一个EXIT_ZOMBIE状态的进程：

#include <stdio.h>
        #include <unistd.h>
        void main()
        {
                 if (fork());
                 while(1)
                 sleep(100);
        }

编译运行，然后ps一下：

njs@njs:~/test$ ps -ax | grep a\.out
        10410 pts/0 S+ 0:00 ./a.out
        10411 pts/0 Z+ 0:00 [a.out]
        10413 pts/1 S+ 0:00 grep a.out

只要父进程不退出，这个僵尸状态的子进程就一直存在。那么如果父进程退出了呢，谁又来给子进程“收尸”？当进程退出的时候，会将它的所有子进程都托管给别的进程（使之成为别的进程的子进程）。托管给谁呢？可能是退出进程所在进程组的下一个进程（如果存在的话），或者是1号进程。所以每个进程、每时每刻都有父进程存在。除非它是1号进程。

1号进程，pid为1的进程，又称init进程。linux系统启动后，第一个被创建的用户态进程就是init进程。它有两项使命：1、执行系统初始化脚本，创建一系列的进程（它们都是init进程的子孙）；2、在一个死循环中等待其子进程的退出事件，并调用waitid系统调用来完成“收尸”工作；init进程不会被暂停、也不会被杀死（这是由内核来保证的）。它在等待子进程退出的过程中处于TASK_INTERRUPTIBLE状态，“收尸”过程中则处于TASK_RUNNING状态。

关于ZOMBIE进程：

这些进程已经死亡，但没有释放系统资源，包括内存和一些一些系统表等，如果这样的进程很多，会引发系统问题。用ps -el看出的进程状态如果是Z，就是僵尸进程。
ps -ef|grep defunc可以找出僵尸进程.
有些ZOMBIE进程时用kill -9也不能杀死，而且消耗了很多系统资源不能释放，如果系统在shutdown时发出信息:some process wouldn’t die. 这就意味这有些进程不能被reboot发出的kill –9杀掉，这些很可能就是僵尸进程。

可以用ps 的 – l 选项,得到更详细的进程信息.
F(Flag)：一系列数字的和，表示进程的当前状态。这些数字的含义为：
00：若单独显示，表示此进程已被终止。
01：进程是核心进程的一部分，常驻于系统主存。如：　　　 sched、 vhand 、bdflush 等。
02：Parent is tracing process.
04 ：Tracing parent's signal has stopped the process; the parent　is waiting ( ptrace(S)).
10：进程在优先级低于或等于25时，进入休眠状态，而且不能用信号唤醒，例如在等待一个inode被创建时　　　
20：进程被装入主存（primary memory）
40：进程被锁在主存，在事务完成前不能被置换　　　e
S(state of the process )
O：进程正在处理器运行　
S：休眠状态（sleeping）
R：等待运行（runable）　　　
I：空闲状态（idle）
Z：僵尸状态（zombie）　　　
T：跟踪状态（Traced）
B：进程正在等待更多的内存页
C(cpu usage)：cpu利用率的估算值

清除ZOMBIE（僵尸）进程可以使用如下方法：
1> kill –18 PPID （PPID是其父进程）
这个信号是告诉父进程，该子进程已经死亡了，请收回分配给他的资源。
2>如果不行则看能否终止其父进程（如果其父进程不需要的话）。先看其父进程又无其他子进程，如果有，可能需要先kill其他子进程，也就是兄弟进程。方法是：
kill –15 PID1 PID2(PID1,PID2是僵尸进程的父进程的其它子进程)。
然后再kill父进程：kill –15 PPID

这样僵尸进程就可能被完全杀掉了。

进程为什么会被置于`uninterruptible sleep`状态呢？

处于uninterruptible sleep状态的进程通常是在等待IO，比如磁盘IO，网络IO，其他外设IO，如果进程正在等待的IO在较长的时间内都没有响应，那么就很会不幸地被 ps看到了，同时也就意味着很有可能有IO出了问题，可能是外设本身出了故障，也可能是比如挂载的远程文件系统已经不可访问了，我这里遇到的问题就是由 down掉的NFS服务器引起的。

正是因为得不到IO的相应，进程才进入了uninterruptible sleep状态，所以要想使进程从uninterruptible sleep状态恢复，就得使进程等待的IO恢复，比如如果是因为从远程挂载的NFS卷不可访问导致进程进入uninterruptible sleep状态的，那么可以通过恢复该NFS卷的连接来使进程的IO请求得到满足，除此之外，要想干掉处在D状态进程就只能重启整个Linux系统了。

看到有人说如果要想杀掉D状态的进程，通常可以去杀掉它的父进程（通常是shell，我理解的这种情况是在shell下直接运行的该进程，之后该进程转入了D状态），于是我就照做了，之后就出现了上面的状态：他们的父进程被杀掉了，但是他们的父进程PID都变成了1，也就是init进程，这下可如何是好？此时我这些D状态的进程已经影响到其他一些进程的运行，而已经无法访问的NFS卷又在段时间内无法恢复，那么，只好重新启动了，root不是玉皇大帝，也有无奈的时候。

跟czhang说起这个事，觉得Linux如果有这么一个专用的垃圾回收进程就好了：系统自动或者用户手动把僵尸进程，和比如之前我遇到的D状态进程的PPID设为这个垃圾回收进程，那么通过干掉这个垃圾回收进程来清理这些僵尸们，这样该有多美好…

长期生活在 Linux 环境里，渐渐地就有一种环保意识油然而生。比如，我们会在登录提示里写上“悟空，我跟你说过叫你不要乱扔东西，乱扔东西是不对的。哎呀我话没说完你怎么把棍子扔掉了？月光宝盒是宝物，乱扔它会污染环境，要是砸到小朋友怎么办？就算砸不到小朋友，砸到了花花草草也不好嘛...”；在用户缺省目录里放一个题为 “自觉保护环境请勿堆放垃圾”的空文件，并用 chattr +i 设为不可修改；看到垃圾文件就立即扫入 /tmp 目录，然后发广播通知垃圾制造者自己去 /tmp 认领，且警告其下不为例...我们深知，系统环境的整洁有利于系统管理员保持良好的心情、清晰的思路和稳定的工作状态。

有一类垃圾却并非这么容易打扫，那就是我们常见的状态为D (Uninterruptible sleep)，以及状态为 Z (Zombie)的垃圾进程。这些垃圾进程要么是求而不得，像怨妇一般等待资源(D)，要么是僵而不死，像冤魂一样等待超度(Z)，它们在 CPU run_queue 里滞留不去，把Load Average 弄的老高老高，没看过我前一篇blog的国际友人还以为这儿民怨沸腾又出了什么大事呢。怎么办？开枪！kill -9！看你们走是不走。但这两种垃圾进程偏偏是刀枪不入的，不管换哪种枪法都杀不掉它们。无奈，只好reboot，像剿灭禽流感那样不分青红皂白地一律扑杀！

悟空，我们所运维的可是24*7全天候对外部客户服务的系统，怎么能动不动就 reboot ？我们的考核指标可是4个9(99.99%，全年计划外当机时间不得超过52分钟34秒)，又不是4个8，你稍微遇到点事就reboot，还要不要可用性了？再说，现在社会都开始奔和谐去了，我们对于 D 和 Z 这两种垃圾进程，也该尽可能采取慈悲手段，能解决其困难的，就创造条件，解决其实际困难，能消除其冤结的，就诵经烧纸，消除其前世冤结，具体问题应具体分析具体解决，滥杀无辜只会导致冤冤相报因果循环...

贫僧还是回来说正题。怨妇 D，往往是由于 I/O 资源得不到满足，而引发等待，在内核源码 fs/proc/array.c 里，其文字定义为“ "D (disk sleep)", /* 2 */ ”（由此可知 D 原是Disk的打头字母），对应着 include/linux/sched.h 里的“ #define TASK_UNINTERRUPTIBLE 2 ”。

举个例子，当 NFS 服务端关闭之时，若未事先 umount 相关目录，在 NFS 客户端执行 df 就会挂住整个登录会话，按Ctrl+C 、Ctrl+Z都无济于事。断开连接再登录，执行 ps axf 则看到刚才的 df 进程状态位已变成了 D ，kill -9 无法杀灭。正确的处理方式，是马上恢复 NFS 服务端，再度提供服务，刚才挂起的 df 进程发现了其苦苦等待的资源，便完成任务，自动消亡。若 NFS 服务端无法恢复服务，在 reboot 之前也应将 /etc/mtab 里的相关 NFS mount 项删除，以免 reboot 过程例行调用 netfs stop 时再次发生等待资源，导致系统重启过程挂起。

冤魂 Z 之所以杀不死，是因为它已经死了，否则怎么叫 Zombie（僵尸）呢？冤魂不散，自然是生前有结未解之故。在UNIX/Linux中，每个进程都有一个父进程，进程号叫PID（Process ID），相应地，父进程号就叫PPID（Parent PID）。当进程死亡时，它会自动关闭已打开的文件，舍弃已占用的内存、交换空间等等系统资源，然后向其父进程返回一个退出状态值，报告死讯。如果程序有 bug，就会在这最后一步出问题。儿子说我死了，老子却没听见，没有及时收棺入殓，儿子便成了僵尸。在UNIX/Linux中消灭僵尸的手段比较残忍，执行 ps axjf 找出僵尸进程的父进程号（PPID，第一列），先杀其父，然后再由进程天子 init（其PID为1，PPID为0）来一起收拾父子僵尸，超度亡魂，往生极乐。注意，子进程变成僵尸只是碍眼而已，并不碍事，如果僵尸的父进程当前有要务在身，则千万不可贸然杀之。

关于ZOMBIE进程

这些进程已经死亡，但没有释放系统资源，包括内存和一些一些系统表等，如果这样的进程很多，会引发系统问题。用ps -el看出的进程状态如果是Z，就是僵尸进程。
ps -ef|grep defunc可以找出僵尸进程.
有些ZOMBIE进程时用kill -9也不能杀死，而且消耗了很多系统资源不能释放，如果系统在shutdown时发出信息:some process wouldn’t die. 这就意味这有些进程不能被reboot发出的kill –9杀掉，这些很可能就是僵尸进程。
可以用ps 的 – l 选项,得到更详细的进程信息.
F(Flag)：一系列数字的和，表示进程的当前状态。这些数字的含义为：

00：若单独显示，表示此进程已被终止。 
01：进程是核心进程的一部分，常驻于系统主存。如：　　　 sched、 vhand 、bdflush 等。 
02：Parent is tracing process. 
04 ：Tracing parent's signal has stopped the process; the parent　is waiting ( ptrace(S)). 
10：进程在优先级低于或等于25时，进入休眠状态，而且不能用信号唤醒，例如在等待一个inode被创建时　　　 
20：进程被装入主存（primary memory） 
40：进程被锁在主存，在事务完成前不能被置换　　　e 
S(state of? the process ) 
O：进程正在处理器运行　 ms这个状态从来木见过， 倒是R常见
S：休眠状态（sleeping） 
R：等待运行（runable）　　　 R Running or runnable (on run queue) 进程处于运行或就绪状态
I：空闲状态（idle） 
Z：僵尸状态（zombie）　　　 
T：跟踪状态（Traced） 
B：进程正在等待更多的内存页 
D:不可中断的深度睡眠，一般由IO引起，同步IO在做读或写操作时，cpu不能做其它事情，只能等待，这时进程处于这种状态，如果程序采用异步IO，这种状态应该就很少见到了
C(cpu usage)：cpu利用率的估算值

清除ZOMBIE（僵尸）进程可以使用如下方法：

kill –18 PPID （PPID是其父进程）

这个信号是告诉父进程，该子进程已经死亡了，请收回分配给他的资源。

如果不行则看能否终止其父进程（如果其父进程不需要的话）。先看其父进程又无其他子进程，如果有，可能需要先kill其他子进程，也就是兄弟进程。方法是：
kill –15 PID1 PID2(PID1,PID2是僵尸进程的父进程的其它子进程)。
然后再kill父进程：kill –15 PPID 这样僵尸进程就可能被完全杀掉了。

如何杀掉D状态的进程？

基本想法就是修改内核，遍历进程列表，找到处于D状态的进程，将其状态转换为别的状态就可以kill掉了。
这是一种比较粗鲁的方法，可能会引起一些不良后果，暂时没有考虑。对于确切知道已经没有什么用处，不用做清理工作的，处于D状态怎么也杀不死的进程来说，确是很有效。
内核模块代码：

----------------killd.c----------------
#include 
#include 
#include  //for_each_process
MODULE_LICENSE("BSD");
static int pid = -1;
module_param(pid, int, S_IRUGO);
static int killd_init(void)
{
   struct task_struct * p;
   printk(KERN_ALERT "killd: force D status process to death\n");
   printk(KERN_ALERT "killd: pid=%d\n", pid);
   //read_lock(&tasklist_lock);
   for_each_process(p){
       if(p->pid == pid){
           printk("killd: found\n");
           set_task_state(p, TASK_STOPPED);
           printk(KERN_ALERT "killd: aha, dead already\n");
           return 0;
       }
   }
   printk("not found");
   //read_unlock(&tasklist_lock);
   return 0;
}
static void killd_exit(void)
{
   printk(KERN_ALERT "killd: bye\n");
}
module_init(killd_init);
module_exit(killd_exit);
-----Makefile------------
obj-m := killd.o

编译模块

make -C yourkerneltree M=`pwd` modules

插入模块的时候提供D状态的进程号，就可以将其转换为stopped状态，使用普通kill就可以杀死。

./insmod ./killd.ko pid=1234

如何看各个状态的进程

进程级别

#ps axwf -eo pid,stat | grep D

线程级别

ps -eL -eo pid,stat,pcpu   | grep D

【参考文档】

1、Linux内核调试技术—进程D状态死锁检测 https://blog.csdn.net/luckyapple1028/article/details/51931210

2、如何分析D状态进程-博客-云栖社区-阿里云 https://yq.aliyun.com/articles/35704

3、centos系统，nginx+php环境，CPU消耗过高，出现较多D状态进程怎么办？https://www.2cto.com/ask/question/524

PHP 如何创建守护(daemon)进程 - 52php - 博客园 http://www.cnblogs.com/52php/p/6285284.html