实验楼实验六

分析Linux内核创建一个新进程的过程

阅读理解task_struct数据结构http://codelab.shiyanlou.com/xref/linux-3.18.6/include/linux/sched.h#1235；

进程是计算机中已运行程序的实体。在面向线程设计的系统（Linux 2.6及更新的版本）中，进程本身不是基本运行单位，而是线程的容器。
在Linux中,task_struct其实就是通常所说的PCB。该结构定义位于:

/include/linux/sched.h

操作系统的三大功能：进程管理、内存管理和文件系统
进程控制块PCB——task_struct
- 进程在TASK_RUNNING下是可运行的，但它有没有运行取决于它有没有获得cpu的控制权，即这个进程有没有在CPU上实际的执行
- 进程的标示pid
- 程序创建的进程具有父子关系，在编程时往往需要引用这样的父子关系。进程描述符中有几个域用来表示这样的关系。

Linux内核状态转换图：

分析fork函数对应的内核处理过程sys_clone，理解创建一个新进程如何创建和修改task_struct数据结构；

1.Linux中创建进程一共有三个函数：

fork，创建子进程
vfork，与fork类似，但是父子进程共享地址空间，而且子进程先于父进程运行。
clone，主要用于创建线程
fork、vfork和clone三个系统调用都可以创建一个新进程，而且都是通过调用do_fork来实现进程的创建，do_fork完成了创建中的大部分工作，该函数调用copy_process（）函数，然后让进程开始运行。
copy_process（）函数工作如下:
- 调用dup_task_struct()为新进程创建一个内核栈、thread_info结构和task_struct，这些值与当前进程的值相同
- 检查
- 子进程着手使自己与父进程区别开来。进程描述符内的许多成员被清0或设为初始值
- 子进程状态被设为TASK_UNINTERRUPTIBLE，以保证它不会投入运行
- copy_process（）调用copy_flags()以更新task_struct的flags成员。表明进程是否拥有超级用户权限的PF_SUPERPRIV标志被清0。表明进程还没有调用exec（）函数的PF_FORKNOEXEC标志被设置
- 调用alloc_pid()为新进程分配一个有效的PID
- 根据传递给clone（）的参数标志，copy_process()拷贝或共享打开的文件、文件系统信息、信号处理函数、进程地址空间和命名空间等
- 最后，copy_process（）做扫尾工作并返回一个指向子进程的指针

2.进程创建过程

YSCALL_DEFINE0(fork)
{
    return do_fork(SIGCHLD, 0, 0, NULL, NULL);
}
#endif
 
SYSCALL_DEFINE0(vfork)
{
    return do_fork(CLONE_VFORK | CLONE_VM | SIGCHLD, 0,
            0, NULL, NULL);
}
 
SYSCALL_DEFINE5(clone, unsigned long, clone_flags, unsigned long, newsp,
         int __user *, parent_tidptr,
         int __user *, child_tidptr,
         int, tls_val)
{
    return do_fork(clone_flags, newsp, 0, parent_tidptr, child_tidptr);
}

3.分析do_fork 代码

long do_fork(unsigned long clone_flags,
          unsigned long stack_start,
          unsigned long stack_size,
          int __user *parent_tidptr,
          int __user *child_tidptr)
{
    struct task_struct *p;
    int trace = 0;
    long nr;
 
    // ...
     
    // 复制进程描述符，返回创建的task_struct的指针
    p = copy_process(clone_flags, stack_start, stack_size,
             child_tidptr, NULL, trace);
 
    if (!IS_ERR(p)) {
        struct completion vfork;
        struct pid *pid;
 
        trace_sched_process_fork(current, p);
 
        // 取出task结构体内的pid
        pid = get_task_pid(p, PIDTYPE_PID);
        nr = pid_vnr(pid);
 
        if (clone_flags & CLONE_PARENT_SETTID)
            put_user(nr, parent_tidptr);
 
        // 如果使用的是vfork，那么必须采用某种完成机制，确保父进程后运行
        if (clone_flags & CLONE_VFORK) {
            p->vfork_done = &vfork;
            init_completion(&vfork);
            get_task_struct(p);
        }
 
        // 将子进程添加到调度器的队列，使得子进程有机会获得CPU
        wake_up_new_task(p);
 
        // ...
 
        // 如果设置了 CLONE_VFORK 则将父进程插入等待队列，并挂起父进程直到子进程释放自己的内存空间
        // 保证子进程优先于父进程运行
        if (clone_flags & CLONE_VFORK) {
            if (!wait_for_vfork_done(p, &vfork))
                ptrace_event_pid(PTRACE_EVENT_VFORK_DONE, pid);
        }
 
        put_pid(pid);
    } else {
        nr = PTR_ERR(p);
    }
    return nr;
}

4.do_fork的工作

调用copy_process，将当期进程复制一份出来为子进程，并且为子进程设置相应地上下文信息。
初始化vfork的完成处理信息（如果是vfork调用）
调用wake_up_new_task，将子进程放入调度器的队列中，此时的子进程就可以被调度进程选中，得以运行。
如果是vfork调用，需要阻塞父进程，知道子进程执行exec。

使用gdb跟踪分析一个fork系统调用内核处理函数sys_clone ，验证您对Linux系统创建一个新进程的理解,推荐在实验楼Linux虚拟机环境下完成实验。

更新menu代码到最新版，make rootfs编译：

用help查看，新添加fork命令：

进入gdb调试：

使用gdb跟踪调试内核，在一些重要函数处设置断点

开始n……

特别关注新进程是从哪里开始执行的？为什么从那里能顺利执行下去？即执行起点与内核堆栈如何保证一致。

ret_from_fork;决定了新进程的第一条指令地址。
在ret_from_fork之前,也就是在copy_thread()函数中childregs = current_pt_regs();该句将父进程的regs参数赋值到子进程的内核堆栈
*childregs的类型为pt_regs,里面存放了SAVE ALL中压入栈的参数
故在之后的RESTORE ALL中能顺利执行下去

遇到的问题

上周提及的连接超时问题，发现原因应该是错误地把被挂起的QEMU界面关闭了……

正确做法应该是：cd ..回LinuxKernel——分屏——终端1输入

qemu -kernel linux-3.18.6/arch/x86/boot/bzImage -initrd rootfs.img -s -S

——无需关闭图形界面，直接在终端2进入gdb

此为本人Linux学习第七周的内容，如有不足，还请批评指正，不胜感激。

以上

2019-2020-1 20199315《Linux内核原理与分析》第七周作业