零基础入门学习汇编语言（前言~第二章）

零基础入门学习汇编语言

零基础入门学习汇编语言作者：小甲鱼

小甲鱼汇编视频+配套教材:王爽汇编第三版pdf+答案

推荐教材汇编语言

第一章基础知识

1.1 机器语言

机器语言是机器指令的集合。
机器指令展开讲就是一台机器可以正确执行的命令。

指令：01010000 （PUSH AX）

1.2 汇编语言的产生

汇编语言的主体是汇编指令。
汇编指令和机器指令的差别在于指令的表示方法上。汇编指令是机器指令便于记忆的书写格式。
汇编指令是机器指令的助记符。

机器指令：1000100111011000

操作：寄存器BX的内容送到AX中

汇编指令：MOV AX, BX

这样的写法与人类语言接近，便于阅读和记忆。
寄存器：简单的讲是CPU中可以存储数据的器件，一个CPU中有多个寄存器。

AX是其中一个寄存器的代号；

BX是另一个寄存器的代号。

1.3 汇编语言的组成

汇编语言由以下3类组成：
1. 汇编指令（机器码的助记符）
2. 伪指令（由编译器执行）
3. 其它符号（由编译器识别）
汇编语言的核心是汇编指令，它决定了汇编语言的特性。

1.4 存储器

1.5 指令和数据

1.6 存储单元

1.7 CPU对存储器的读写

1.8 地址总线

1.9 数据总线

1.10 控制总线

小结

汇编指令是机器指令的助记符，同机器指令一一对应。
每一种CPU都有自己的汇编指令集。
CPU可以直接使用的信息在存储器中存放。
在存储器中指令和数据没有任何区别，都是二进制信息。
存储单元从零开始顺序编号。
一个存储单元可以存储8个bit（用作单位写成“b”），即8位二进制数。
1B = 8b; 1KB = 1024B; 1MB = 1024KB; 1GB = 1024MB
每个CPU芯片都有许多管脚，这些管脚和总线相连。也可以说，这些管脚引出总线。一个CPU可以引出三种总线，总线的宽度标志这个CPU的不同方面的性能：
- 地址总线的宽度决定了CPU的寻址能力；
- 数据总线的宽度决定了CPU与其它器件进行数据传送时的一次数据传送量；
- 控制总线宽度决定了CPU对系统中其它器件的控制能力。

1.11 内存地址空间（概述）

1.12 主板

1.13 接口卡

1.14 各类存储器芯片

从读写属性上看分为两类：
- 随机存储器（RAM）
- 只读存储器（ROM）
从功能和连接上分类：
- 随机存储器RAM
- 装有BIOS的ROM
  
  BIOS：Basic Input/Output System，基本输入输出系统。
  
  BIOS是由主板和各类接口卡（如：显卡、网卡等）厂商提供的软件系统，可以通过它利用该硬件设备进行最基本的输入输出。在主板和某些接口卡上插有存储相应BIOS的ROM。
- 接口卡上的RAM

1.15 内存地址空间

PC机中各类存储器的逻辑连接情况：

屏幕快照 2018-07-30 16.47.40

假设上图中的内存空间地址段分配如下：

地址0～7FFFH的32KB空间为主随机存储器的地址空间（7FFF - 0 + 1 = 8000H = 1000 0000 0000 0000B = \(2^{15}B\) = 32KB）；
地址8000H～9FFFH的8KB空间为显存地址空间（9FFF - 8000 + 1 = 2000H = 0010 0000 0000 0000B = \(2^{13}B\) = 8KB）；
地址A000H～FFFFH的24KB空间为各个ROM的地址空间（FFFF - A000 + 1 = 5FFF + 1 = 6000H = 0110 0000 0000 0000B = \(2^{14} + 2^{13} = (2^4 + 2^3) * 2^{10} = 24 * 2^{10}B = 24KB\)）。

附一张 Intel 8086PC机的内存地址图：

屏幕快照 2018-07-30 17.09.36

第二章寄存器（CPU工作原理）

2.1 通用寄存器

CPU概述

寄存器概述

8086 CPU有14个寄存器，它们的名称为：AX、BX、CX、DX、SI、DI、SP、BP、IP、CS、SS、DS、ES、PSW。

这些寄存器我们以后会陆续介绍，因为“以后用到的知识以后再讲——减负”
8086 CPU所有的寄存器都是16位的，可以存放两个字节。
AX、BX、CX、DX 通常用来存放一般性数据被称为通用寄存器。

下面以AX为例，我们看一下寄存器的逻辑结构：
- 一个16位寄存器可以存储一个16位的数据。
  
  例如：
  - 数据：18
  - 二进制表示：10010
  - 在寄存器AX中的存储：
  例如：
  - 数据：20000
  - 二进制表示：0100111000100000
  - 在寄存器AX中的存储：
- 一个16位寄存器所能存储的数据的最大值为多少？
  
  答案：\(2^{16}-1\)
- 8086上一代CPU中的寄存器都是8位的。为了保证兼容性，这四个寄存器都可以分为两个独立的8位寄存器使用。
  - AX可以分为AH和AL；
  - BX可以分为BH和BL；
  - CX可以分为CH和CL；
  - DX可以分为DH和DL。
  - AX的低8位（0～7位）构成了AL寄存器，高8位（8～15位）构成了AH寄存器。
  - AH和AL寄存器是可以独立使用的8位寄存器。
  - 一个8位寄存器所能存储的数据的最大值是多少？
    
    答案：\(2^8-1\)

2.2 字在寄存器中的存储

一个字可以存储在一个16位寄存器中，这个字的高位字节和低位字节自然就存储在这个寄存器的高8位寄存器和低8位寄存器中。

2.3 几条汇编指令

屏幕快照 2018-07-30 21.02.11

汇编语言不区分大小写。CPU执行下表中的程序段的每条指令后，对寄存器中的数据进行的改变。

屏幕快照 2018-07-30 21.13.47

答案：ax：044CH

因为8226H+8226H=1044CH，但是，寄存器AX只有32位，即4个十六进制数，所以高位1存不下。难道要把进位1丢掉吗？no，计算机自有办法，后边会讲。

再看一道：

屏幕快照 2018-07-30 21.28.59

注：ax高8位ah，低8位al。bx同理。al：0058H。注意，al和bl是相互独立的8位寄存器，C5H + 93H = 0158H 不要认为进位1会存到高位ah寄存器中，只会截断（丢弃）。若最后一条指令是 add ax, 93H，则 ax = 0158H。

这里的丢失，指的是进位制不能在8位寄存器中保存，但是CPU并不是真的丢掉这个进位值，这个问题会在后面的课程中讨论（CPU会有一个专门的寄存器来存放进制位）。

检测

AX = F4A3H

AX = 31A3H

AX = 3123H

AX = 6246H

BX = 826CH

CX = 6246H

AX = 826CH

AX = 04D8H

AX = 0482H

AX = 6C82H

AX = D882H

AX = D888H

AX = D810H

AX = 6246H

（2）只能使用目前学过的汇编指令，最多使用四条指令，编程计算2的4次方。

mov ax, 2

add ax, ax

add ax, ax

add ax, ax

2.4 物理地址

2.5 16位结构的CPU

概括的讲，16位结构描述了一个CPU具有以下几个方面特征：

运算器一次最多可以处理16位的数据。
寄存器的最大宽度为16位。
寄存器和运算器之间的通路是16位。

决定一个CPU是多少位的，就是看这三方面的特点。

2.6 8086CPU给出物理地址的方法

8086外部有20位地址总线，可传送20位地址，寻址能力1MB。
8086内部为16位结构，它只能传送16位的地址，表现出的寻址能力却只有64KB。

那么，问题来了。8086 CPU如何用内部16位的数据转换成20位的地址呢？

8086 CPU采用一种在内部用两个16位地址合成的方法来形成一个20位的物理地址。

TIM截图20180731142220

8086 CPU读写内存时，发生了这么一些事：
1. CPU中的相关部件提供两个16位的地址，一个称为段地址，另一个称为偏移地址；
2. 段地址和偏移地址通过内部总线送入一个称为地址加法器的部件；
3. 地址加法器将两个16位地址合并成一个20位的地址；
4. ······

地址加法器工作原理

地址加法器合成物理地址的方法

物理地址 = 段地址 * 16 + 偏移地址

TIM截图20180731143444

注：1230为十六进制的段地址；00C8为十六进制偏移地址。段地址 * 16 相当于十六进制数1230H向左移一位（也就是其对应二进制向左移四位），成为12300H。这样得到的物理地址123C8H就是20位了。

由段地址 * 16 引发的血案······

“段地址 * 16”有一个更为常用的说法就是数据左移4位。（二进制）

移位位数	二进制	十六进制	十进制
0	10B	2H	2
1	100B	4H	4
2	1000B	8H	8
3	10000B	10H	16
4	100000B	20H	32

注：

一个数据（十进制）的二进制形式左移1位，相当于该数据乘以2；
一个数据的二进制形式左移N位，相当于该数据乘以2的N次方；
地址加法器如何完成段地址 * 16的运算？

以二进制形式存放的段地址左移4位。

一个馒头引发的分析······

一个数据的十六进制形式左移1位，相当于乘以16；
一个数据的十进制形式左移1位，相当于乘以10；
一个数据的X进制形式左移1位，相当于乘以X。

2.7 “段地址 * 16 + 偏移地址 = 物理地址”的本质含义

两个比喻说明：

说明“基础地址 + 偏移地址 = 物理地址”的思想：第一个比喻

比如说，学校、体育馆同在一条笔直的单行路上（学校位于路的起点0米处）。读者在学校，要去图书馆，问我那里的地址，我可以用几种方式描述这个地址？
- 从学校走2826m到图书馆。这2826可以认为是图书馆的物理地址。
- 从学校走2000m到体育馆，从体育馆再走826m到图书馆。
  
  第一个距离2000m是相对于起点的基础地址；
  
  第二个距离826m是相对于基础地址的偏移地址。
说明“段地址 * 16 + 偏移地址 = 物理地址”的思想：第二个比喻

比如我们只能通过纸条来通信，读者问我图书馆的地址，我只能将它写在纸上告诉读者。显然我必须有一张可以容纳4位数据的纸条才能写下2826这个数据：

不巧的是，没有能容纳4位数据的纸条，仅有两张可以容纳3位数据的纸条。这样我只能以这种方式告诉读者2826这个数据：

让读者把第一个纸条的3位数200乘以10，然后加上第二个纸条的3位数826。这样得到图书馆地址。

8086 CPU就是这样一个只能提供两张3位数据纸条的CPU。

2.8 段的概念

错误认识：

内存被划分成了一个一个的段，每一个段有一个段地址。
其实：

内存并没有分段，段的划分来自于CPU，由于8086 CPU用“（段地址 * 16） + 偏移地址 = 物理地址”的方式给出内存单元的物理地址，使得我们可以用分段的方式来管理内存。

左边和右边是相同的内存地址区间，我们可以人为的认为它们是一个个段。我们认为有多少个段看需要而定。

两点需要注意：
1. 段地址 * 16必然是16的倍数，所以一个段的起始地址也一定是16的倍数；
2. 偏移地址为16位，16位地址的寻址能力为64K（\(2^{16}\)），所以一个段的长度最大为64K。
以后，在编程时可以根据需要，将若干地址连续的内存单元看作一个段，用段地址 * 16定位段的起始地址（基础地址），用偏移地址定位段中的内存单元。

内存单元地址小结

CPU访问内存单元时，必须向内存提供内存单元的物理地址。
8086 CPU在内部用段地址和偏移地址移位相加的方法形成最终的物理地址。

观察下面的地址，读者有什么发现？

物理地址	段地址	偏移地址
21F60	2000H	1F60H
	2100H	0F60H
	21F0H	0060H
	21F6H	0000H
	1F00H	2F60H

结论：CPU可以用不同的段地址和偏移地址形成同一个物理地址。

如果给定一个段地址，仅通过变化偏移地址来进行寻址，最多可以定位多少内存单元？

结论：偏移地址16位，变化范围为0~FFFFH，仅用偏移地址来寻址最多可寻64K个内存单元。

比如：给定段地址1000H，用偏移地址寻址，CPU的寻址范围为：10000H~1FFFFH。（因为段地址 * 16，相当于段地址1000H，左移1位）

没有小结的小结

在8086PC机中，存储单元的地址用两个元素来描述。即段地址和偏移地址。
“数据在21F60H内存单元中。”对于8086PC机的两种描述：
1. 数据在内存2000:1F60单元中；
2. 数据存在内存的2000段中的1F60H单元中。
可根据需要，将起始地址为16的倍数的一组连续内存单元定义为一个段。

检测点2.2

没有通过检测点请不要向下学习！

给定段地址为 0001H，仅通过变化偏移地址寻址，CPU的寻址范围为_到_。
有一数据存放在内存 20000H 单元中，现给定段地址为 SA，若想用偏移地址寻到此单元，则 SA 应满足的条件是：最小为_，最大为_。

提示：反过来思考一下，当段地址给定为多少，CPU无论怎么变化偏移地址都无法寻到20000H单元？

参考答案：

0010H 1000FH
1001H 2000H

2.9 段寄存器

段寄存器就是提供段地址的。

8086 CPU有4个段寄存器：CS、DS、SS、ES

CS：code segment 代码段寄存器：提供代码段地址

DS：data segment 数据段寄存器：提供数据段地址

SS：stack segment 堆栈段寄存器：提供堆栈段地址

ES：extra segment 附加段寄存器：前面3个不够，存放到附加段

当8086 CPU要访问内存时，由这4个段寄存器提供内存单元的地址。
shipingdao 10

2.10 CS和IP

CS和IP是8086 CPU中最关键的寄存器，它们指示了CPU当前要读取指令的地址。

CS为代码段寄存器

IP为指令指针寄存器

8086 PC读取和执行指令相关部件

8086 PC工作过程的简要描述

从CS：IP指向内存单元读取指令，读取的指令进入指令缓冲区；
IP = IP + 所读取指令的长度，从而指向下一条指令；
执行指令。转到步骤1，重复这个过程。

在8086 CPU加电启动或复位后（即CPU刚开始工作时）CS和IP被设置为CS = FFFFH，IP = 0000H。即在8086 PC机刚启动时，CPU从内存FFFF0H单元中读取指令执行。FFFF0H单元中的指令是8086PC机开机后执行的第一条指令。

在任何时候，CPU将CS和IP中的内容当作指令的段地址和偏移地址，用它们合成指令的物理地址，到内存中读取指令码，执行。如果说，内存中的一段信息曾被CPU执行过得话，那么，它所在的内存单元必然被CS：IP指向过。

2.11 修改CS、IP的指令

在CPU中，程序员能够使用的指令读写部件只有寄存器，程序员可以通过改变寄存器中的内容实现对CPU的控制。CPU从何处执行指令是由CS、IP中的内容决定的，程序员可以通过改变CS、IP中的内容来控制CPU执行目标指令。我们如何改变CS、IP的值呢？

8086 CPU必须提供相应的指令。先回想我们如何修改寄存器AX中的值？

如何修改AX（通用寄存器）的值

mov 指令
如：mov ax, 123

就是把 123 这个数据放到 ax 中。

mov指令可以改变8086 CPU大部分寄存器的值，被称为传送指令。

能够通过mov指令改变CS、IP的值吗？

mov指令不能用于设置CS、IP的值，8086 CPU没有提供这样的功能。8086 CPU为CS、IP提供了另外的指令来改变它们的值：转移指令

同时修改CS、IP的内容：

jmp 段地址：偏移地址

如：
- jmp 2AE3:3 告诉CPU跳转到的物理地址为2AE33
- jmp 3:0B16 告诉CPU跳转到的物理地址为00B46
功能：用指令中给出的段地址修改CS，偏移地址修改IP。

仅修改IP的内容：

jmp 某一合法寄存器

如：
- jmp ax （类似于 mov IP, ax）
- jmp bx
功能：用寄存器中的值修改IP。

问题分析：CPU运行的流程

内存中存放的机器码和对应汇编指令情况（初始：CS = 2000H，IP = 0000H）：

TIM截图20180801110438

问题分析结果：

mov ax, 6622
jmp 1000:3
mov ax, 0000
mov bx, ax
jmp bx

这条跳转指令等价于：

mov IP, bx

就是说把寄存器bx的值赋给IP寄存器
mov ax, 0123H
转到第3步执行

我们可以发现这是一个死循环。

2.12 代码段

对于8086PC机，在编程时，可以根据需要，将一组内存单元定义为一个段。
可以将长度为N（N<=64KB）的一组代码，存在一组地址连续、起始地址为16的倍数的内存单元中，这段内存是用来存放代码的，从而定义了一个代码段。

也就是说，我们的偏移地址不能超过16位（即，一个段的索引长度不能超过64KB，也就是一个段最大能存放64KB）。那如果一个段放不下怎么办？连续存下去即可，从CPU角度看内存是连续的存储单元，是我们人为的把内存分段来索引。所以，起始地址是16的倍数，段地址都是16的倍数。

例如：

mov ax, 0000	(B8 00 00)
add ax, 0123	(05 23 01)
mov bx, ax	(8B D8)
jmp bx	(FF E3)

这段长度为10字节的指令，存在从123B0H~123B9H的一组内存单元中，我们就可以认为，123B0H~123B9H这段内存单元是用来存放代码的，是一个代码段，它的段地址为123BH，长度为10字节。

如何使得代码段中的指令被执行呢？

将一段内存当做代码段，仅仅是我们在编程时的一种安排，CPU并不会由于这种安排，就自动地将我们定义的代码段中的指令当作指令来执行。CPU只认被CS：IP指向的内存单元中的内容为指令。所以要将CS：IP指向所定义的代码段中的第一条指令的首地址。

2.9节~2.12节小结

段地址在8086 CPU的寄存器中存放。当8086 CPU要访问内存时，由段寄存器提供内存单元的段地址。8086 CPU有4个段寄存器，其中CS用来存放指令的段地址。
CS存放指令的段地址，IP存放指令的偏移地址。

8086机中，任意时刻，CPU将CS：IP指向的内容当作指令执行。
8086 CPU的工作过程：
1. 从CS：IP指向内存单元读取指令，读取的指令进入指令缓冲器；
2. IP指向下一条指令；
3. 执行指令。转到步骤1，重复这个过程。
8086 CPU提供转移指令（jmp）修改CS、IP的内容。

检测点2.3

没有通过检测点请不要向下学习！

下面的3条指令执行后，CPU几次修改IP？都是在什么时候？最后IP中的值是多少？

mov ax, bx

sub ax, ax

jmp ax

答：一共修改四次

第一次：读取 mov ax, bx 之后

第二次：读取 sub ax, ax 之后

第三次：读取 jmp ax 之后

第四次：执行 jmp ax 修改 IP

最后 IP 的值为 0000H，因为最后 ax 中的值为 0000H，所以 IP 中的值也为 0000H。