1.问题描述

在前面的文章中，学习了在Linux系统之中如何创建一个新进程进行追踪，本文将围绕编译链接的过程和ELF可执行文件格式，对Linux内核装载和启动一个可执行程序。

2.解决过程

2.1 ELF文件

（1）可重定位文件：保存代码和适当数据，用来和其他object文件一起创建可执行文件或者共享文件，即.o文件。
（2）可执行文件：保存用来执行的程序，该文件指出了exec（BA_OS）如何来创建程序进程映像。
（3）共享目标文件：共享库，是指可以被可执行文件或其他库文件使用的目标文件，如标准C的库文件libc.so，只有一堆函数可供其他可执行文件调用。

2.2 ELF文件程序编译

程序经过的四个步骤：
预处理：编译器将C程序的头文件编译进来，还有宏的替换，可以用gcc的参数-E来参看。
gcc -E louhao.c -o louhao.i
编译：这个阶段编译器主要做词法分析、语法分析、语义分析等，在检查无错误后后，把代码翻译成汇编语言。可用gcc的参数-S来参看。
gcc -S louhao.i -o louhao.s
汇编：汇编器as将louhao.s 翻译成机器语言保存在louhao.o 中（二进制文本形式）。
gcc -c louhao.s -o louhao.o
链接：链接器负责处理多个.o文件的并入，结果得到louhao文件，它就是一个可执行的目标文件。
gcc louhao.o -o louhao

2.3 静态链接和动态链接

静态链接：在编译时直接将需要的执行代码复制到最终可执行的文件中，优点是代码的装载速度快，执行速度也比较快，对外部环境依赖度低。编译时会把所有需要的代码都链接进去，应用程序相对比较大。缺点是如果多个应用程序使用同一库函数，会被装载多次，浪费内存。
动态链接：在编译时不直接复制可执行代码，而是通过一系列符号和参数，在程序运行或加载时将这些信息传递给操作系统。操作系统负责将需要的动态库加载到内存中，然后程序在运行到指定的代码时，去共享执行内存中已经加载的动态库去执行代码，最终达到运行时链接的目的。优点是多个程序可以共享同一段代码，而不需要在磁盘上存储多个复制。缺点时在运行时加载，可能会影响程序的前期执行性能，而且对库的依赖度极高。

2.4 装载和启动一个可执行程序

将menu目录删除，利用git命令克隆一个新的menu目录，然后用test_exec.c覆盖test.c：

重新编译rootfs：

可以看到test.c中增加了exec函数，执行exec指令，显示如下：

返回LinuxKernel目录，shift+ctrl+o水平分割，用gdb设置断点：

c执行至start_thread断点暂停：

输入exec:

继续执行：

关闭qume，在menu目录下查看hello可执行文件：

给出对exec函数的分析：

int do_execve(struct filename *filename,
    const char __user *const __user *__argv,
    const char __user *const __user *__envp)
{
    return do_execve_common(filename, argv, envp);
}
 
 
static int do_execve_common(struct filename *filename,
                struct user_arg_ptr argv,
                struct user_arg_ptr envp)
{
    // 检查进程的数量限制
 
    // 选择最小负载的CPU，以执行新程序
    sched_exec();
 
    // 填充 linux_binprm结构体
    retval = prepare_binprm(bprm);
 
    // 拷贝文件名、命令行参数、环境变量
    retval = copy_strings_kernel(1, &bprm->filename, bprm);
    retval = copy_strings(bprm->envc, envp, bprm);
    retval = copy_strings(bprm->argc, argv, bprm);
 
    // 调用里面的 search_binary_handler
    retval = exec_binprm(bprm);
 
    // exec执行成功
 
}
 
static int exec_binprm(struct linux_binprm *bprm)
{
    // 扫描formats链表，根据不同的文本格式，选择不同的load函数
    ret = search_binary_handler(bprm);
    // ...
    return ret;
}

3.总结

本文主要学习了编译链接的过程和ELF可执行文件格式，对Linux内核装载和启动一个可执行程序。可执行文件开始执行的起点在修改调用execve系统调用时压入内核堆栈的EIP寄存器的值，此时标志着当前进程的可执行文件已经被完全替换为新的可执行文件，但实际上开始执行可执行文件中的指令还需要等到执行可执行文件中定义的入口地址的位置。如果是静态链接的可执行文件，那么eip指向该elf文件的文件头e_entry所指的入口地址；如果是动态链接，eip指向动态链接器。

2019-2020-1 20199310《Linux内核原理与分析》第八周作业