1. gcc编译流程
gcc将hello.c源文件编译成可执行的binary文件需要经过hello.i、hello.s、hello.o、hello四个步骤,如图所示:
- 1.预处理:展开头文件和宏定义等。
gcc -E hello.c -o hello.i - 2.编译:将预处理得到的源代码转换成汇编文件(得到汇编文件)。
gcc -S hello.i -o hello.s - 3.汇编:将汇编代码转成不可执行的机器码文件(得到机器码文件)。
gcc -c hello.s -o hello.o - 4.链接:将不可执行的机器码文件转成可执行的文件,把各种符号引用和符号定义转换成为可执行文件中的合适信息,通常是虚拟地址(得到可执行文件)。
gcc hello.o -o hello
我们也可以直接使用gcc hello.c -o hello一步生成binary文件hello
源码从前端经过词法分析、语法分析/语义分析之后生成AST/GENERIC(可通过gcc hello.c -fdump-tree-original-raw
查看AST表示),再转换成GIMPLE中间表示,GCC还需要对GIMPLE进行低级化、IPA处理等,再转成SSA优化后生成RTL,最终才生成汇编代码(中间过程可通过gcc hello.c -fdump-tree-all
查看),整个过程如下:
1.1 查看详细信息
gcc编译时可以采用 gcc --verbose 命令打印出编译连接时的详细信息,如下:
- 1.编译阶段:/home/zgl/gcc-8.2.0/libexec/gcc/x86_64-pc-linux-gnu/8.2.0/cc1 -quiet -v hello.c -quiet -dumpbase hello.c -mtune=generic -march=x86-64 -auxbase hello -version -o /tmp/cc0jyba9.s
gcc采用cc1进行编译(源文件 -> .s文件) - 2.汇编阶段: as -v --64 -o /tmp/cc60EyJj.o /tmp/cc0jyba9.s
gcc调用汇编器as进行汇编(.s文件 -> .o文件) - 3.链接阶段:/home/zgl/gcc-8.2.0/libexec/gcc/x86_64-pc-linux-gnu/8.2.0/collect2 -plugin /home/zgl/gcc-8.2.0/libexec/gcc/x86_64-pc-linux-gnu/8.2.0/liblto_plugin.so -plugin-opt=/home/zgl/gcc-8.2.0/libexec/gcc/x86_64-pc-linux-gnu/8.2.0/lto-wrapper -plugin-opt=-fresolution=/tmp/cce1Spju.res -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lgcc_s --eh-frame-hdr -m elf_x86_64 -dynamic-linker /lib64/ld-linux-x86-64.so.2 -o hello
当汇编完成得到目标文件,这时需要连接器ld,gcc采用collect2作为链接器ld的中间件(.o文件 -> 可执行文件)
2. 链接可分为动态链接和静态链接
- 动态链接使用动态链接库进行链接,生成的程序在执行的时候需要加载所需的动态库才能运行。动态链接生成的程序小巧,但是必须依赖动态库,否则无法执行。
- Linux 下的动态链接库实际是共享目标文件(shared object),一般是.so 文件,作用类似于 Windows 下的.dll 文件。
- 静态链接使用静态库进行链接,生成的程序包含程序运行所需要的全部库,可以直接运行,不过体积较大。
- Linux 下静态库是汇编产生的.o 文件的集合,一般以.a 文件形式出现。
gcc 默认是动态链接,加上-static 参数则采用静态链接。 gcc编译系统主要由三部分组成:与语言相关的前端、与语言无关的后端、与机器相关的机器描述
3. GCC中的前、中、后端及Tool chain模型
- 典型前端:
- 典型中后端:
- Gnu Tool Chain:
总结
GCC的优化流程主要是: 编译器首先从编译命令行中解析出优化参数,经过语法分析器将源程序翻译成等价的AST(抽象语法树)形式; 再由中间代码生成器将AST转换为RTL(Register transfer language);然后由优化器根据解析出的优化参数实施相应的优化策略;最后由代码生成器读入优化后的RTL并生成可执行机器码予以输出。事实上,GCC的优化绝大部分都是在RTL这个层次上实施的。
References:
- 《深入分析GCC》.王亚刚
- GCC Resource Center for GCC Internals