C++每日一问：C++ 程序编译过程

编译内存相关问题：C++ 程序编译过程

C语言的编译链接过程要把我们编写的一个c程序（源代码）转换成可以在硬件上运行的程序（可执行代码），需要进行编译和链接。编译就是把文本形式源代码翻译为机器语言形式的目标文件的过程。链接是把目标文件、操作系统的启动代码和用到的库文件进行组织，形成最终生成可执行代码的过程。过程图解如下：

在这里插入图片描述

从图上可以看到，整个代码的编译过程分为编译和链接两个过程，详细划分又可分为：预处理，编译，汇编，链接四个过程。

预处理，展开头文件/宏替换/去掉注释/条件编译（test.i main .i）
编译，检查语法，生成汇编（ test.s main .s）
汇编，汇编代码转换机器码 (test.o main.o)
链接链接到一起生成可执行程序 a.out
在这里插入图片描述

1.编译预处理

预处理是一种展开，下表是常用的一些预处理命令:
在这里插入图片描述
还有下列几种预处理宏(是双下划线）

__LINE__ 表示正在编译的文件的行号
__FILE__表示正在编译的文件的名字__DATE__表示编译时刻的日期字符串，例如： "25 Dec 2007"
__TIME__ 表示编译时刻的时间字符串，例如： "12:30:55"
__STDC__ 判断该文件是不是定义成标准 C 程序

宏优点：1 代码复用性；2 提高性能
宏缺点：1 不可调试（预编译阶段进行了替换）；2 无类型安全检查；3 可读性差，容易出错。
在这里插入图片描述
宏函数一般还用：#define定义一个比如判断大小，替换常量，很是方便。例如，#define ERROR_POWEROFF -1，#define _CRT_SECURE_NO_WARNINGS 1这样的和编译器有关的东西，但不会去写宏函数，宏函数这东西，可读性特别差，在c++中，一般用const/枚举/内联去替代宏。

但define宏在某些方面真的是非常好用例如：

1.替代路径
#define ENG_PATH_1 C:\Program Files (x86)
2.针对编译器版本不兼容报错
#define _CRT_SECURE_NO_WARNINGS 1
3.条件编译
#ifdef 标识符
程序段 1
#else
程序段 2
#endif

4.使用库中的宏
vc++中有许多有意思的宏，都是大牛们写出来的，真的是充满智慧，十分刁钻，怎么学也学不完，我个人担心出错就很少写宏，用函数代替了。还有其他许多重要的预处理。
比如
include
#include
尖括号是预处理到系统规定的路径中去获得这个文件（即 C 编译系统所提供的并存放在指定的子目录下的头文件）。找到文件后，用文件内容替换该语句。如stdio.h

#include“filename”
“”则是预处理我们自己第三方的文件，如程序员小刘写的Date.h，我们就可以include“Date.h”

#error 预处理,#line 预处理，#pragma 预处理
#error 预处理指令的作用是，编译程序时，只要遇到 #error 就会生成一个编译错误提示消息，并停止编译。
这个我没写过，但碰到过很多次，在编写mfc代码中，拉入控件时我加入密码框控件，OS编译时会自动弹出#error 提示我该编辑框为密码，注意明文问题

#line 的作用是改变当前行数和文件名称，如#line 28 liu

#pragma 是比较重要且困难的预处理指令。
#pragma once
这个的做用就是防止头文件多次包含

当然，还有另外一种风格，
#ifndef _SOME_H
#define _SOME_H
…//(some.h头文件内容)
#endif

变量的防止重复定义则利用extern，在头文件中不初始化只声明。引用该头文件即可，在链接过程中。就可以使用到这个变量。
（附：extern在c++中经常用于 extern “C” 告诉编译器下面是c语言风格）

#pragma warning
#pragma warning( disable : 4507 34; once : 4385; error : 164 )
等价于：
#pragma warning(disable:4507 34) // 不显示 4507 和 34 号警告信息
#pragma warning(once:4385) // 4385 号警告信息仅报告一次
#pragma warning(error:164) // 把 164 号警告信息作为一个错误。

另外还有

#pragma pack
使用指令#pragma pack (n)，编译器将按照 n 个字节对齐。
使用指令#pragma pack ()，编译器将取消自定义字节对齐方式。
在#pragma pack (n)和#pragma pack ()之间的代码按 n 个字节对齐。
字节对齐

#pragma pack(push) //保存当前对其方式到 packing stack
#pragma pack(push,n) 等效于
#pragma pack(push)
#pragma pack(n) //n=1,2,4,8,16 保存当前对齐方式，设置按 n 字节对齐
#pragma pack(pop) //packing stack 出栈，并将对其方式设置为出栈的对齐

#运算符和##预算符
#define SQR(x) printf(“The square of “#x” is %d.\n”, ((x)*(x)));
这段代码中#就是帮助x作为一个变量，表现出来，而不是一个简单的字母
如果有#，SQR（3）运算出来就是
The square of 3 is 9
如果没有# SQL（3）运算出来就是
The square of x is 9

##预算符
##把两个语言符号组合成单个语言符号

2.编译阶段

编译阶段是检查语法，生成汇编，这个属于程序员的必备知识，我们学习一门语言第一步就是知晓语法，其中比较生涩的有左值右值，指针的使用，内存的管理，数据结构的使用，这将会是一场持久战，贯穿在整个学习生涯。在这里我截取优先级问题，这个可能会通过编译但是不一定达到程序员想要的结果。
在这里插入图片描述

经过预编译得到的输出文件中，只有常量；如数字、字符串、变量的定义，以及C语言的关键字，如main, if , else , for , while , { , } , + , - , * , \ 等等。

编译程序所要作得工作就是通过词法分析和语法分析，在确认所有的指令都符合语法规则之后，将其翻译成等价的中间代码表示或汇编代码。

优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关，而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。

对于前一种优化，主要的工作是删除公共表达式、循环优化（代码外提、强度削弱、变换循环控制条件、已知量的合并等）、复写传播，以及无用赋值的删除，等等。

后一种类型的优化同机器的硬件结构密切相关，最主要的是考虑是如何充分利用机器的各个硬件寄存器存放有关变量的值，以减少对于内存的访问次数。另外，如何根据机器硬件执行指令的特点（如流水线、RISC、CISC、VLIW等）而对指令进行一些调整使目标代码比较短，执行的效率比较高，也是一个重要的研究课题。
经过优化得到的汇编代码必须经过汇编程序的汇编转换成相应的机器指令，方可能被机器执行。

3.汇编

汇编代码转换机器码这个阶段，非底层的程序员不需要考虑，编译器不会搞错的。也与c/c++开发者无关，但是我们可以利用反汇编来调试代码，学习汇编语言依然是必备的。

汇编过程实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序，都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。

目标文件由段组成。通常一个目标文件中至少有两个段：
1 代码段：该段中所包含的主要是程序的指令。该段一般是可读和可执行的，但一般却不可写。

2 数据段：主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读，可写，可执行的。

UNIX环境下主要有三种类型的目标文件：

1 可重定位文件：其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。

2 共享的目标文件：这种文件存放了适合于在两种上下文里链接的代码和数据。

第一种是链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件；

第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起，创建一个进程映象。

3 可执行文件：它包含了一个可以被操作系统创建一个进程来执行之的文件。

汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到，这个就是链接程序的工作了。

4. 链接过程

由汇编程序生成的目标文件并不能立即就被执行，其中可能还有许多没有解决的问题。
例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用等）；在程序中可能调用了某个库文件中的函数，等等。所有的这些问题，都需要经链接程序的处理方能得以解决。
链接程序的主要工作就是将有关的目标文件彼此相连接，也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。

根据开发人员指定的同库函数的链接方式的不同，链接处理可分为两种：
(1) 静态链接
在这种链接方式下，函数的代码将从其所在的静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合，其中的每个文件含有库中的一个或者一组相关函数的代码。
(2) 动态链接
在此种方式下，函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

对于可执行文件中的函数调用，可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小，并且当共享对象被多个进程使用时能节约一些内存，因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。

(3) GCC的编译链接
我们在linux使用的gcc编译器便是把以上的几个过程进行捆绑，使用户只使用一次命令就把编译工作完成，这的确方便了编译工作，但对于初学者了解编译过程就很不利了，下图便是gcc代理的编译过程：

1)预编译
将.c 文件转化成 .i文件
使用的gcc命令是：gcc –E
对应于预处理命令cpp

2)编译
将.c/.h文件转换成.s文件
使用的gcc命令是：gcc –S
对应于编译命令 cc –S

3)汇编
将.s 文件转化成 .o文件
使用的gcc 命令是：gcc –c
对应于汇编命令是 as

4)链接
将.o文件转化成可执行程序
使用的gcc 命令是： gcc
对应于链接命令是 ld

总结起来编译过程就上面的四个过程：预编译处理(.c) －－> 编译、优化程序（.s、.asm）－－> 汇编程序(.obj、.o、.a、.ko) －－> 链接程序（.exe、.elf、.axf等）。

5. 总结

C语言编译的整个过程是非常复杂的，里面涉及到的编译器知识、硬件知识、工具链知识都是非常多的，深入了解整个编译过程对工程师理解应用程序的编写是有很大帮助的，但一般情况下，我们只需要知道分成编译和链接两个阶段，编译阶段将源程序（*.c) 转换成为目标代码（一般是obj文件，至于具体过程就是上面说的那些阶段），链接阶段是把源程序转换成的目标代码（obj文件）与你程序里面调用的库函数对应的代码连接起来形成对应的可执行文件（exe文件）就可以了。