【汇编语言与计算机系统结构笔记05】汇编的系统结构，从C代码生产汇编代码，一个具体的、经典的数据传送指令（mov）实例与分析

本次笔记内容：
06.寻址模式与数据传输指令等

文章目录

汇编程序员眼中的系统结构
如何从C代码生产汇编代码

如何装gcc？
汇编语言数据格式

第一条汇编指令实例
数据传送指令（mov）

语法与操作数类型
不同的操作数类型组合

简单的寻址模式

间接寻址
基址+偏移量寻址
寻址模式使用实例
变址寻址

本次笔记从C语言的经典代码出发，学习汇编语言的接口作业。

汇编程序员眼中的系统结构

在用户层编写程序（不涉及kernel，因此也不涉及保护模式等），x86系统看起来是下述结构：

CPU是由PC、Registers、Condition Codes构成：
- 指令集存器（PC Program Counter），存储下一条指令的地址，在x86-32中用EIP表示，在x86-64中用RIP表示；
- 寄存器堆；
- 条件码，用于存储最近执行指令的结果状态信息，用于条件跳转指令的判断。
存储器（Memory），即存储器，包括Object Code、Program Data、OS Data、Stack：
- 以字节编码的连续存储空间；
- 存放程序代码、数据、运行栈以及操作系统数据。

CPU为Memory提供指令，Memory将Data和Instructions传输给CPU。

如何从C代码生产汇编代码

C代码

int sum(int x, int y)
{
	int t = x + y;
	return t;
}

命令行输入：

gcc -O2 -S code.c

-O2表示优化，等级为2（-O3太激进）；
-S表示生产汇编文件；
生产汇编文件code.s。

对应的x86-32汇编，AT&T汇编格式（与Intel Microsoft汇编格式不同）：

sum:
	pushl %ebp
	movl %esp, %ebp
	movl 12(%ebp), %eax
	addl 8(%ebp), %eax
	movl %ebp, %esp
	popl %ebp
	ret

如何装gcc？

linux自带；
Windows可以去下载Cygwin（Get that Linux feeling on Windows）。

汇编语言数据格式

C声明	Intel数据类型	汇编代码后缀	大小（字节）
char	字节	b	1
short	字	w	2
int	双字	l	4
long int	双字	l	4
long long int	-	-	4
char *	双字	l	4
float	单精度	s	4
double	双精度	l	8
long double	扩展精度	t	10/12

b即byte，w即word；因为是32位机型，long int与int同，long long int没有。

在x86-32中，使用“字（word）”来表示16位整数类型，“双字”表示32位。汇编语言中没有数据类型，一般采用汇编指令的后缀来进行区分。

扫描二维码关注公众号，回复： 8917344 查看本文章

第一条汇编指令实例

C代码：

int t = x + y;

为两个整数（32位）相加。

汇编代码：

addl 8(%ebp), %eax

两个32位整数相加：
- “l”后缀表示是双字运算；
- 无符号/带符号整数加法运算的指令是一样的。

类似于表达式 x += y或者：

int eax;
int *ebp;
eax += ebp[2];

操作数：

x：Register eax
y：Memory M[ebp+8]；
t：Register eax

把x与y加起来，放在t中（结果存于eax中）。

机器码：

0x401046: 03 45 08

3-字节指令。

数据传送指令（mov）

语法与操作数类型

数据传送（AT&T语法）

movl Source, Dest:

将一个“双字”从Source移到Dest；
常见指令。

要注意，对于很多指令，在MIPS或Intel Microsoft中Soure, Dest位置是相反的。

允许的操作数类型

立即数：常整数
- 如：$0x400, $-533
- 应注意一定要有$符号
- 可以被1，2或4个字节来表示
寄存器：8个通用寄存器之一
存储器：四个连续字节，支持多种访存寻址模式

不同的操作数类型组合

	Source	Dest	例子				类似的C语言表示
movl {
	Imm {
			Reg		movl $0x4, %eax		temp = 0x4;
			Mem		movl $-147, (%eax)	*p = -147;
		}
	Reg {
			Reg		movl %eax, %edx		temp2 = temp1;
			Mem		movl %eax, (%edx)	*p = temp;
		}
	Mem	{	Reg		movl (%eax), %edx	temp = *p;
		}
}

注意：

带不带括号意思不同；
movl $-147, (%eax)表示eax中的值作为地址，把-147这个值放到eax的值所代表的地址的地址空间中去；
如果没有美元符号，则把数字当成地址；
不能两个操作数都为内存地址！

简单的寻址模式

间接寻址

(R) : Mem[Reg[R]]

表示寄存器R指定内存地址。

movl (%ecx), %eax

基址+偏移量寻址

D(R) : Mem[Reg[R] + D]

寄存器R指定内存起始地址；
常数D给出偏移量。

movl 8 (%ebp), %edx

表示，取ebp的值，加上8，作为地址，取出连续4个byte来（因为mov后缀为l），放在edx中。

寻址模式使用实例

void swap (int *xp, int *yp)
{
	int t0 = *xp;
	int t1 = *yp;
	*xp = t1;
	*yp = t0;
}

swap:

pushl %ebp
movl %esp, %ebp
pushl %ebx
// 以上为Set Up
movl 12(%ebp), %ecx
movl 8(%ebp), %edx
movl (%ecx), %eax
movl (%edx), %ebx
movl %eax, (%edx)
movl %ebx, (%ecx)
// 以上为Body
movl -4(%ebp), %ebx
movl %ebp, %esp
popl %ebp
ret
// Finsih

在这里插入图片描述

如上图，以ebp作为基准。

在这里插入图片描述

如上图，假设现在已知ebp存储0x104：

第一条，ebp作为基址（0x104），加12偏移量，即0x110（注意是16进制）的值0x120取出来，并将0x120值赋给exc；
第二条，将ebp作为基址，加8偏移量，即0x10c的值0x120取出来，并将其赋给edx；
第三条，即将exc的值作为地址，将地址对应的值取出来，赋给%eax；
之后同理。

心得：movl (%ecx), %eax表示将ecx的值作为地址，并将其地址对应的值取出来，赋给eax；即，movl其实是对两个地址对应的数值（可是立即数、可是地址）进行操作。

变址寻址

常见形式：

D(Rb, Ri, S) : Mem[Reg[Rb] + S * Reg[Ri]]

D为常量（地址偏移量）；
Rb为基址寄存器：8个通用寄存器其之一；
Ri为索引寄存器：%esp不作为索引寄存器，一般%ebp也不做这个用途；
S为比较因子1,2，3或8.

其他变形还有：

(Rb, Ri)	: Mem[Reg[Rb] + Reg[Ri]]
D(Rb, Ri)	: Mem[Reg[Rb] + Reg[Ri] + D]
(Rb, Ri, S)	: Mem[Reg[Rb] + S * Reg[Ri]]

PiperNest (同公众号)

发布了132 篇原创文章 · 获赞 36 · 访问量 1万+

私信关注