gcc编译器的编译实际过程了解以及ELF文件格式的学习


前言

GCC经过这么多年的发展,它已经不仅仅只能支持c语言了,它现在还支持Ada语言、C++语言、Java语言,以及支持函数式编程和逻辑编程的Mercury语言等等。如今GCC对于操作系统平台和硬件平台的支持就是一句话:无所不在,所以问哦们也有必要去了解一下gcc的编译流程,初步了解学习一下。

一、GCC并不是孤立的

1、Binutils

Binutils是一组二进制程序处理工具,其中包括:addr2line、ar、objcopy、objdump、as、ld、ldd、readelf、size等等。此工具是开发和调试不可缺少的工具。

  • addr2line:用来将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数。
  • as:主要用于汇编,接下来会详细介绍。
  • ld: 主要用于连接,后文也会详细介绍。
  • ar: 主要用于创建静态库。
  • ldd:可以用来查看一个可执行程序的依赖的共享库。
  • objcopy :将一种对象文件翻译成另一种格式,比如将.bin转换成.elf,或者将.elf 转换成.bin等等。
  • readelf :显示有关ELF文件的信息。
  • size :列出可执行文件每一个部分的尺寸和总尺寸,代码段、数据段、总大小等。

2、C运行库

C语言标准主要由两部分组成:一部分是描述c的语法,另外一部分是描述c标准库。c标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义。
C语言标准仅仅定义了C标准库函数原型,并没有提供实现。因此,C语言编译器通常需要一个C运行时库的支持。C运行时库又常简称C运行库。

二、探究GCC编译器的运行

在这里我们就以一个简单的c语言程序为示例来研究

#include <stdio.h>
int main()
{
    
    
	printf("hello word!\n");
	return 0;
}

1、预处理

gcc命令: gcc -E main.c -o main.i
将源文件预处理为hello.i文件

  • 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如#if #ifdef #elif #else #endif
  • 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释“//”和“/* */”。
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的#pragma 编译器指令,后续编译过程需要使用它们。

在这里插入图片描述

2、编译

gcc命令: gcc -S main.i -o main.s
将预处理生成的main.i文件编译生成汇编程序main.s

在这里插入图片描述

3、汇编

gcc命令: gcc -c main.s -o main.o
将编译生成的main.s文件汇编生成目标文件main.o

这里我们也可以用Binutils中的as生成目标.o文件
命令: as -c main.s -o main.o
注意! 此时的 .o文件为ELF格式的可重定向文件。

  • 汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o
    的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相
    对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理
    器指令的对照表一一翻译即可。在这里插入图片描述

4、链接

静态链接: 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来)和重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
动态链接: 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统
中把相应动态库加载到内存中去。

  • 在 Linux系统中,gcc编译链接时的动态库搜索 路径的顺序通常为:首先从gcc命令的参数-L指定的路径寻找 ;再从环境变量LIBRARY_PATH指定的路径寻址;再从默认路径/lib、/usr/lib、/usr/local/lib 寻找 。
  • 在Linux系统中,执行二进制文件时的动态库搜 索路径的顺序通常为:首先搜索编译目标代码时指 定的动态库搜索路径;再从环境变量 LD_LIBRARY_PATH指定的路径寻址;再从配置 文件/etc/ld.so.conf 中 指定的动态库搜索路径 ;再从默认路径/lib、/usr/lib寻找 。

gcc 命令: gcc main.c -o main //使用动态库链接

在这里插入图片描述
可以看到用命令 ldd main可以看到该文件还链接了其他的动态库,主要是Linux的glibc动态库

还可以使用命令 size main来查看生成的ELF可执行文件的大小

在这里插入图片描述

gcc命令: gcc -static main.c -o main //使用静态库链接

在这里插入图片描述
可以看到它并没有链接动态库,且可以看到生成的可执行ELF文件的大小。

三、GCC下的其它相关命令

检错: gcc -pedantic main.c -o main

  • -pedantic 编译选项并不能保证被编译程序与 ANSI/ISO C 标准的完全兼容,它仅仅只能用来帮助Linux 程序员离这个目标越来越近。或者换句话说,-pedantic 选项能够帮助程序员发现一些不符合ANSI/ISO C 标准的代码,但不是全部,事实上只有 ANSI/ISO C 语言标准中要求进行编译器诊断的那些情况,才有可能被 GCC 发现并提出警告。
  • 除了-pedantic 之外,GCC 还有一些其它编译选项也能够产生有用的警告信息。这些选项大多以-W开头,其中最有价值的当数-Wall 了,使用它能够使 GCC 产生尽可能多的警告信息。
    gcc -Werror test.c -o test

编译可执行文件:gcc -c -I /usr/dev/mysql/include main.c -o main.o

强制链接使用静态链接库:
gcc -L /usr/dev/mysql/lib -static -lmysqlclient main.o -o main

  • 默认情况下, GCC 在链接时优先使用动态链接库,只有当动态链接库不存在时才考虑使用静态链接库,如果需要的话可以在编译时加上-static 选项,强制使用静态链接库。
  • 在/usr/dev/mysql/lib 目录下有链接时所需要的库文件libmysqlclient.so和libmysqlclient.a,为了让GCC 在链接时只用到静态链接库,可以使用命令。

四、ELF文件的认识与学习

1、ELF文件的段

ELF文件格式如下图所示,位于ELF Header 和Section Header Table之间的都是段(Section)。一个典型的ELF文件包含下面几个段:

  • text :已编译程序的指令代码段。
  • rodata :ro 代表 read only,即只读数据(比如常数 const)。
  • data:已初始化的C程序全局变量和静态局部变量。
  • bass:未初始化的C程序全局变量和静态局部变量。
  • debug:调试符号表,调试器用此段的信息帮助调试。

在这里插入图片描述

readelf -S main

2、反汇编

  • 由于 ELF 文件无法被当做普通文本文件打开,如果希望直接查看一个 ELF 文件包含的指令和数据,需要使用反汇编的方法。

ob jdump -D main

  • 使用objdump -S 将其反汇编并且将其C语言源代码混合显示出来

gcc -o main -g man.c
ob jdump -S main


总结

通过对GCC的编译过程的学习与记录,对gcc编译器的执行流程以及原理有了一定的了解,相信其在我后面更加深入的学习硬件开发有一定的帮助,加油!

猜你喜欢

转载自blog.csdn.net/wer4567/article/details/127019644
今日推荐