c程序的软件构建流程-由源码安装redis引起的思考

redis是由c语言写的，所以源码安装redis需要清楚c语言的构建流程。

对于复杂项目的编译过程：

Configure:`configure` 只是一个 shell script, 与编译器毛线关系没有. `shell通过运行这个脚本，获知编译参数

Make

Make install

他们是什么意思呢：

构建脚本、预处理、编译、链接、安装、装载执行

第一步配置（configure）

编译器在开始工作之前，需要知道当前的系统环境，比如标准库在哪里、软件的安装位置在哪里、需要安装哪些组件等等。这是因为不同计算机的系统环境不一样，通过指定编译参数，编译器就可以灵活适应环境，编译出各种环境都能运行的机器码。这个确定编译参数的步骤，就叫做"配置"（configure）。

这些配置信息保存在一个配置文件之中，约定俗成是一个叫做configure的脚本文件。通常它是由autoconf工具生成的。编译器通过运行这个脚本，获知编译参数。

configure脚本已经尽量考虑到不同系统的差异，并且对各种编译参数给出了默认值。如果用户的系统环境比较特别，或者有一些特定的需求，就需要手动向configure脚本提供编译参数。

第二步确定标准库和头文件的位置

源码肯定会用到标准库函数（standard library）和头文件（header）。它们可以存放在系统的任意目录中，编译器实际上没办法自动检测它们的位置，只有通过配置文件才能知道。

编译的第二步，就是从配置文件中知道标准库和头文件的位置。一般来说，配置文件会给出一个清单，列出几个具体的目录。等到编译时，编译器就按顺序到这几个目录中，寻找目标。

第三步确定依赖关系

对于大型项目来说，源码文件之间往往存在依赖关系，编译器需要确定编译的先后顺序。假定A文件依赖于B文件，编译器应该保证做到下面两点。

（1）只有在B文件编译完成后，才开始编译A文件。

（2）当B文件发生变化时，A文件会被重新编译。

编译顺序保存在一个叫做makefile的文件中，里面列出哪个文件先编译，哪个文件后编译。而makefile文件由configure脚本运行生成，这就是为什么编译时configure必须首先运行的原因。

在确定依赖关系的同时，编译器也确定了，编译时会用到哪些头文件。

第四步头文件的预编译（precompilation）make

不同的源码文件，可能引用同一个头文件（比如stdio.h）。编译的时候，头文件也必须一起编译。为了节省时间，编译器会在编译源码之前，先编译头文件。这保证了头文件只需编译一次，不必每次用到的时候，都重新编译了。

不过，并不是头文件的所有内容，都会被预编译。用来声明宏的#define命令，就不会被预编译。

第五步预处理（Preprocessing）make

预编译完成后，编译器就开始替换掉源码中bash的头文件和宏。以本文开头的那段源码为例，它包含头文件stdio.h，替换后的样子如下。

extern int fputs(const char *, FILE *);

extern FILE *stdout;

int main(void){

fputs("Hello, world!\n", stdout);

return 0;}

为了便于阅读，上面代码只截取了头文件中与源码相关的那部分，即fputs和FILE的声明，省略了stdio.h的其他部分（因为它们非常长）。另外，上面代码的头文件没有经过预编译，而实际上，插入源码的是预编译后的结果。编译器在这一步还会移除注释。

这一步称为"预处理"（Preprocessing），因为完成之后，就要开始真正的处理了。

第六步编译（Compilation）make

预处理之后，编译器就开始生成机器码。对于某些编译器来说，还存在一个中间步骤，会先把源码转为汇编码（assembly），然后再把汇编码转为机器码。

下面是本文开头的那段源码转成的汇编码。

.file "test.c"

.section .rodata.LC0:

.string "Hello, world!\n"

.text

.globl main

.type main, @function

main:.LFB0:

.cfi_startproc

pushq %rbp

.cfi_def_cfa_offset 16

.cfi_offset 6, -16

movq %rsp, %rbp

.cfi_def_cfa_register 6

movq stdout(%rip), %rax

movq %rax, %rcx

movl $14, %edx

movl $1, %esi

movl $.LC0, %edi

call fwrite

movl $0, %eax

popq %rbp

.cfi_def_cfa 7, 8

ret

.cfi_endproc.LFE0:

.size main, .-main

.ident "GCC: (Debian 4.9.1-19) 4.9.1"

.section .note.GNU-stack,"",@progbits

这种转码后的文件称为对象文件（object file）。

第七步连接（Linking）make

对象文件还不能运行，必须进一步转成可执行文件。如果你仔细看上一步的转码结果，会发现其中引用了stdout函数和fwrite函数。也就是说，程序要正常运行，除了上面的代码以外，还必须有stdout和fwrite这两个函数的代码，它们是由C语言的标准库提供的。

编译器的下一步工作，就是把外部函数的代码（通常是后缀名为.lib和.a的文件），添加到可执行文件中。这就叫做连接（linking）。这种通过拷贝，将外部函数库添加到可执行文件的方式，叫做静态连接（static linking），后文会提到还有动态连接（dynamic linking）。

make命令的作用，就是从第四步头文件预编译开始，一直到做完这一步。

第八步安装（Installation）

上一步的连接是在内存中进行的，即编译器在内存中生成了可执行文件。下一步，必须将可执行文件保存到用户事先指定的安装目录。

表面上，这一步很简单，就是将可执行文件（连带相关的数据文件）拷贝过去就行了。但是实际上，这一步还必须完成创建目录、保存文件、设置权限等步骤。这整个的保存过程就称为"安装"（Installation）。

第九步操作系统连接

可执行文件安装后，必须以某种方式通知操作系统，让其知道可以使用这个程序了。比如，我们安装了一个文本阅读程序，往往希望双击txt文件，该程序就会自动运行。

这就要求在操作系统中，登记这个程序的元数据：文件名、文件描述、关联后缀名等等。Linux系统中，这些信息通常保存在/usr/share/applications目录下的.desktop文件中。另外，在Windows操作系统中，还需要在Start启动菜单中，建立一个快捷方式。

这些事情就叫做"操作系统连接"。make install命令，就用来完成"安装"和"操作系统连接"这两步。

第十步生成安装包

写到这里，源码编译的整个过程就基本完成了。但是只有很少一部分用户，愿意耐着性子，从头到尾做一遍这个过程。事实上，如果你只有源码可以交给用户，他们会认定你是一个不友好的家伙。大部分用户要的是一个二进制的可执行程序，立刻就能运行。这就要求开发者，将上一步生成的可执行文件，做成可以分发的安装包。

所以，编译器还必须有生成安装包的功能。通常是将可执行文件（连带相关的数据文件），以某种目录结构，保存成压缩文件包，交给用户。

第十一步动态连接（Dynamic linking）

正常情况下，到这一步，程序已经可以运行了。至于运行期间（runtime）发生的事情，与编译器一概无关。但是，开发者可以在编译阶段选择可执行文件连接外部函数库的方式，到底是静态连接（编译时连接），还是动态连接（运行时连接）。所以，最后还要提一下，什么叫做动态连接。

前面已经说过，静态连接就是把外部函数库，拷贝到可执行文件中。这样做的好处是，适用范围比较广，不用担心用户机器缺少某个库文件；缺点是安装包会比较大，而且多个应用程序之间，无法共享库文件。动态连接的做法正好相反，外部函数库不进入安装包，只在运行时动态引用。好处是安装包会比较小，多个应用程序可以共享库文件；缺点是用户必须事先安装好库文件，而且版本和安装位置都必须符合要求，否则就不能正常运行。

现实中，大部分软件采用动态连接，共享库文件。这种动态共享的库文件，Linux平台是后缀名为.so的文件，Windows平台是.dll文件，Mac平台是.dylib文件

configure不是编译阶段，甚至不是预编译阶段。只能算编译前的准备阶段。生成makefile。配置编译的一些选项，检查
编译文件需要的环境是否满足，如不满足，则报错，停止工作。
另外生成makefile只是configure的部分工作。真正的makefile，是从makefile.in模板文件中导入的。所以想构建
自己的configure体系，仍需要自己提供makefile.in文件，提供依赖关系。

文中在介绍make的工作时，说“链接在内存中进行，在内存中生成了可执行文件”。
这里我有点看不明白了。
我认为：链接过程就是（对静态链接来说）合并.o文件的过程，合并的结果以可执行文件形式保存在某个目录下。
也就是说，此时已经在文件系统中生成了“可执行文件”，只不过不在PATH目录下（对Linux来说），不能直接执行，需要make install，把程序复制到/usr/bin之类的目录，或者配置PATH才能直接执行。
但是，既然已经有了可执行文件，直接在命令行下输入其绝对路径就能运行，也就是说，只make而不make install也能用。
所以，我认为博主的“在内存中生成了可执行文件”有失偏驳。

预处理是 cpp，编译 gcc，链接 ld

内存中用来存储指令和数据的场所，是用地址来标记的。

控制器运算器寄存器，时钟，各部分之间用电流信号连接。寄存器用来暂时存储指令数据，也看作内存的一种。

控制器把内存指令数据读入寄存器，并根据指令执行结果控制整个计算机。

运算器负责运算寄存器内的数据。

内存通过控制芯片与cpu相连。

程序是吧寄存器作为对象描述的。

汇编语言使用助记符编写程序，每一个原本是电气信号的机器语言指令，都会有一个与其对应的助记符。汇编语言和机器语言基本上是一一对应的。

数据分为用于运算的数值，和表示内存地址的数值两种，存储的寄存器也不同。

用于运算的数值放在累加寄存器中，用于表示内存地址的数值，放在基址寄存器和变址寄存器中。

对于程序员来说，cpu是各种功能寄存器的集合。其中，程序计数器=-下一条指令地址，累加寄存器-需要运算的数值和运算后的数珠，标志寄存器-运算处理后cpu

的状态，指令寄存器和站寄存器只有一个。