本篇文章是对王道考研的2021计算机组成原理学习笔记，希望对大家有所帮助。

文章目录

三、存储系统

三、存储系统

3.1 基本概念

知识总览：

1.存储器的层次结构

主存——辅存：解决了主存容量不够的问题。

Cache——主存：解决了主存与CPU之间速度不匹配的问题。

2.存储器的分类

（1）按层次进行分类

（2）按传输介质进行分类

半导体：主存、Cache
磁表面存储器：磁盘，磁带
光存储器

（3）按存取方式进行分类

相联存储器：可以按照内容检索到存储位置进行读写。
随机存取存储器（RAM）：读写任何一个存储单元所需的时间都相同，与位置无关。（内存）
顺序存取存储器（SAM）：读写一个存储单元所需的时间取决于存储单元所在的位置。（磁带）
直接存取存储器（DAM）：既有随机存取特性，也有顺序存取特性。先直接选取信息所在区域，然后按顺序方式进行存取。（机械硬盘）

顺序存取存储器和直接存取存储器都归为串行访问存储器（读取时间和数据位置有关）。

（4）按信息的可更改性进行分类

读写存储器：可读可写（如内存，硬盘等）
只读存储器：只能读，不能写（如电影使用的光碟）

（5）按信息的可保存性进行分类

易失性存储器：断电后数据消失（主存，Cache）
非易失性存储器：断电依然保存（磁盘、光盘）
破坏性读出：读出数据后要进行重写（如DRAM芯片）
非破坏性读出：读出数据后原数据没被破坏（如SRAM芯片、磁盘、光盘）

3.存储器的性能指标

存储容量：存储字数 x 存储字长（如 1M x 8位）。

MAR反映存储字数，MDR反映了存储字长。

单位成本：每位价格 = 总成本/总容量（某条内存条价格为259，容量为8GB，则单位成本 = 259 / (8*8) ）。
存储速度：数据传输率 = 数据的宽度/存储周期
存取时间：存取时间 + 恢复时间 = 存取周期，计算机进行一次读写操作后需要一段恢复时间才能进行下一次的读写操作。
主存带宽：就是上面的数据传输率，表示每秒从主存进出信息的最大数量，单位为字/秒，字节/秒，位/秒。

3.2主存储器

3.2.1主存储器的基本组成

知识总览：

（1）存储体

存储体由多个存储单元构成，每个存储单元由多个存储元构成。

存储元：能够存储一位比特。

电容：存储电荷，有电压差表示比特1，无电压差表示比特0。

MOS管：一个电控开关，当输入电压到达某个阀值时，MOS管就可以接通，电容中的电荷就可以跑出来。（相当于一个电路的开关）

将多个存储元组合起来就构成了存储单元，同个存储单元的存储元共用一根MOS管。

将多个存储单元组合起来就构成了存储体。

（2）地址寄存器和数据寄存器

通过 译码器来选择哪一个存储单元进行读写。

并通过数据总线传送数据。

（3）控制电路：

控制电路控制着 MAR，译码器和MDR的数据处理。

同时存储芯片还需要对外提供片选线，读选择线，写选择线。

片选线：芯片的总开关，低电平有效时表示选择了这块芯片进行工作了。

读选择线，写选择线：分别用来控制是读还是写。有时候会将这两根线合为一条，用低电平表示写，用高电平表示读。

（4）从总体上来看：

这里也表明了片选线的作用，上述的内存条是由多个存储芯片构成，假设每个存储芯片为1GB，则这条内存条条就为8GB，在进行读写数据时，需要通过片选线来选取不同的存储芯片进行存储。

寻址：

假设该存储体中的存储字长为4B，总容量为1KB，则存储单元为256个。

寻址方式可分为四种：

按字节寻址：则有1K个地址，需要10根地址线
按字寻址：则有256个地址，字节地址等于字地址乘于字长。
按半字寻址
按双字寻址

3.2.2 随机存取存储器RAM

知识总览：

RAM主要分为两种：

SRAM：静态RAM，用于Cache

DRAM：动态RAM，用于主存

1.存储元件不同导致的特性差异

DRAM芯片：使用栅极电容来存储信息

SRAM芯片：使用双稳态触发器来存储信息

（1）栅极电容：

1：电容内存储了电荷

0：电容内未存储电荷

破坏性读出：电容放电后相当于电荷跑了出来，导致信息破坏，所以读出后需要有重写操作，也称为再生。这也是DRAM读写速度比SRAM慢的原因。

电容内的电荷只能维持2ms，即便不断电，2ms后信息也会消失。所以在2ms之内必须刷新一次，给电容充电。

每个存储元制造成本更低，集成度高，功耗低。

（2）双稳态触发器：

1：A处为高电平并且B处为低电平

0：A处为低电平并且B处为高电平

非破坏性读出：读出数据后，触发器状态保持稳定，无需重写。读写速度更快。

只要不断电，触发器的状态就不会改变。

每个存储元制造成本更高，集成度低，功耗高。

2.DRAM的刷新

（1）多久刷新一次：一般为2ms

（2）每次刷新多少个存储单元：以行为单位，每次刷新一行存储单元。

存储器中存储单元的排列是由 行地址译码器和列地址译码器 共同选择。

如果只使用一个译码器来进行地址选择的话，那么8位地址需要使用 2⁸=256 条选通线，而使用行地址译码器和列地址译码器共同工作的话，只需要 2⁴+2⁴=32 条选通线，也就是行译码器16条选通线，列译码器16条选通线。

（3）如何刷新：有硬件支持，读出一行的信息后重新写入，占1个读/写周期。

（4）什么时候进行刷新？

假设DRAM内部结构排列成 128x128 的形式，读/写周期为 0.5us ，则 2ms 内共有 2ms/0.5us=4000个读/写周期。

于是刷新的时间选择可以有以下三种思路：

3.DRAM的地址线复用技术

由于DRAM存储容量较大，存储单元数目多，所需地址线也就比较多，为了简化硬件，采用地址线复用技术，行地址和列地址分成两次进行传送到译码器中。

总结：

3.2.3 只读存储器ROM

ROM芯片虽然叫做“Read Only”，但是很多ROM也可以写。
闪存的写速度一般比读速度慢，因为写入之前需要先擦除。
事实上很多ROM也是具有随机存取的特性的。

3.2.4 主存储器和CPU的连接

1.单块存储芯片与CPU的连接

假设有一块 8Kx1位的存储芯片，说明此芯片需要 13根地址线，CPU有8个数据线和16根地址线，从上面可以看出，CPU每次只能传送1位数据到该芯片中，这会导致CPU的数据线没有得到充分利用，并且会有需要扩展主存容量的情况。

于是，就需要通过多个存储芯片的合理连接来扩展主存容量。

可以有两种方式：

位扩展：扩展存储单元的字长
字扩展：扩展存储单元的个数

2.多块存储芯片与CPU的连接

（1）位扩展：

如上图，将两片存储芯片进行连接，CPU地址总线A0~A12会一起发送给这两块芯片，而第二块芯片的数据线D0会和CPU的数据线D1进行相连。这样就扩展成了8Kx2位的存储器了。

同样，CPU中一共有D0~D7个数据线，因此可以总共连接8个图中所示的存储芯片，扩展成 8Kx8位的存储器。

（2）字扩展：

字扩展可分为两种：

线选法
片选法

如图中是一块 8Kx8位的存储芯片，由于该芯片的存储单元字长等于CPU的数据总线数，因此不需要进行位扩展。而地址线并没有被完全利用到，因此可以考虑进行字扩展。

线选法：

用专门的地址线作为片选线，进行选择某一块存储芯片。

如图中：A13为第一块存储芯片的片选线，A14为第二块存储芯片的片选线，当A13 A14分别为01或10时，代表选中了第一块存储芯片或第二块存储芯片，这样就能扩展存储单元的个数。

此时第一块存储芯片的最低地址为：01 0000 0000 0000，最高地址为 01 1111 1111 1111

第二块存储芯片的最低地址为：100 0000 0000 0000，最高地址为 101 1111 1111 1111

但是线选法有一个缺陷：A13和A14不能取00或者11，因为取00时会导致两快存储芯片都没有被选中，11会导致两块存储芯片都被选中。并且需要n个片选信号。

可以进行优化：

只通过A13和一个非门来进行选择。

此时第一块芯片的最低地址为10 0000 0000 0000，最高地址为11 1111 1111 1111

第二块芯片的最低地址为00 0000 0000 0000，最高地址为01 1111 1111 1111

片选法：

总结：

（3）位扩展和字扩展同时扩展

3.2.5 双端口RAM和多模块存储器

知识总览：

存取周期 = 存取时间 + 恢复时间

前面讲到，DRAM由于电容的特性，每次进行读操作后需要进行重写，也就是需要一定的恢复时间，导致DRAM的存取周期比较长，并且这个恢复时间往往还比存取时间长。

这样会引出以下两种问题：

对于现如今的计算机，很多都是具有多核CPU，那么不同的CPU访问主存时，后续的CPU是否需要等待这么长的恢复时间呢？
CPU的读写速度比主存快很多，主存恢复时间太长怎么办？

这两个问题分别对应接下来的内容：双端口RAM 和多模块存储器。

1.双端口RAM

**需要两组完全独立的数据线，地址线，控制线。**CPU和RAM中也要有更复杂的控制电路。

两个端口对同一主存操作有以下4种情况：

当发生冲突时，会发出忙信号，有判断逻辑决定暂时关闭一个端口（即被延时），未被关闭的端口正常访问，被关闭的端口延长一个很短的时间断后再访问。

2.多模块存储器

（1）多体并行存储器：

图中每个方格表示一个存储单元。

高位交叉编址：每个存储体遍历完了之后再遍历下一个存储体。仅仅相当于扩容。

低位交叉编址：以横向方式遍历存储体，也就是每次都是遍历不同存储体的不同存储单元。这样，在读取其他存储体的存储单元时，之前读取过的存储单元可以利用这段时间进行恢复，达到一种并行的效果。

在模块数的选取上需要保证模块数 m >= T/r，这样才能保证存储体有足够的时间进行恢复。

（2）单体多字存储器：

和多体并行存储器相反，单体多字存储器将多个存储体进行了合并，每次只能同时取m个字，不能单独取其中某个字，当某次读写的数据在不同行时，需要读入多余的信息。

3.应用

双通道内存：

原理：低位交叉编址的多体并行存储器。

3.3 Cache

3.3.1 Cache的基本概念和原理

知识总览：

虽然双端口RAM和多模块存储器已经提高了存储器的工作速度，但是和CPU的差距依然很大，于是就产生了缓存Cache，其价格更高，容量更低。

（1）工作原理：

**空间局部性：**在最近的未来要用到的信息，很有可能与闲杂i正在使用的信息在存储空间上是临近的。（信息的存储一般都是顺序的）

**时间局部性：**在最近的未来要用到的信息，很可能是现在正在使用的信息。（程序中很可能存在大量的循环结构，需要重复访问）

故Cache能够工作的理论依据：从上面两个局部性可以分析到，我们可以把CPU目前访问的地址周围的部分数据放到Cache中。

（2）性能分析：

设 **t_c**为访问一次Cache所需时间，**t_m**为访问一次主存所需时间。

CPU能够直接在Cache中找到所需信息，称为命中。

**命中率 H：**CPU欲访问的信息已在Cache中的比率。

**缺失率（未命中率）M：**M = 1 - H

**CPU平均访问时间 t 为：**t = H t_c + ( 1-H ) ( t_c+t_m )

例题：

（3）如何界定“周围”：

将主存的存储空间进行分块，主存与Cache之间以块为单位进行数据交换。
这样主存地址就可分为两部分：块号和块内地址。
在操作系统中，通常将主存中的 “一个块” 也称为 “一个页/页面/页框” 。
Cache中的 “块” 也称为 “行” 。

Cache和主存之间仍然存在一些问题：

如何区分Cache和主存之间的数据块对应关系？ ——Cache和主存的映射方式
Cache很小，主存很大。如果Cache满了怎么办？ ——替换算法
CPU修改了Cache中的数据副本，如何确保主存中数据母本的一致性？ ——Cache写策略

以上问题请继续看下面内容。

总结：

3.3.2 Cache和主存的映射方式

（1）全相联映射

任何一个主存块可以放在Cache的任意位置。

给每一个Cache块增加一个标记位，记录对应的主存块号。

还需要一个有效位，有效位为1时表示标记位有效，有效位为0时表示标记位无效。

以上图为例，主存中任意一块数据都可以存放在Cache任意一块中，只要标记好和主存数据的对应就行。例如主存中第9号块数据可以存放在Cache中0号到1号任意一个位置。

优点：Cache存储空间利用充分，命中率高。

缺点：查找速度较慢。

故CPU访问主存数据的流程如下：

（2）直接映射

每个主存块只能放到特定的一个位置：Cache块号 = 主存块号 % Cache总块数。

以上图为例，8块为一个循环。主存中0号和8号块数据可以存放在Cache第0号块中，主存中1号和9号块数据可以存放在Cache第1号块中，以此类推。

**若Cache总块数 = 2ⁿ，则主存块号末尾 n 位直接反映它在Cache中的位置。**这是因为Cache块号 = 主存块号 % Cache总块数 = 主存块号末尾 n 位。

于是对于Cache所保存的标记号可以不用保存主存中对应的整个地址，可以只保留主存块号m前面（m-n）个二进制数。

故CPU访问主存数据流程如下：

优点：只需要对比一个标记，速度最快。

缺点：Cache存储空间不充分，命中率低。

（3）组相联映射

将Cache块分为若干组，每个主存块可放到特定分组中的任意一个位置。

每个主存块对应的组号 = 主存块号 % 分组数

以上图为例，8块为一个循环组。0号和8号同属于第0组，0号和8号数据可以存放在第0组的任意一个位置，只要做好标记就行。

和直接映射一样，若Cache总分组数 = 2ⁿ，则主存块号末尾 n 位直接反映它在Cache中是第几组。

故CPU访问主存数据流程如下：

假设以下采用2路组相联映射，也就是 2块为一组，分四组。

优点：上面两种方法的折中，综合效果较好。

总结：

3.3.3 Cache替换算法

知识总览：

直接映射方式由于主存数据块对应的Cache块是固定的，所以没得选择，不需要使用替换算法。

而全相联映射和组相联映射方式由于可以选择不同位置进行替换，所以需要用到替换算法进行替换。

下面例子以全相联映射方式进行举例。

1.随机算法（RAND）

若Cache已满，则随机选择一块替换。

举例：

图中红色表示该位置被重新替换成新的块。

图中绿色表示命中该缓存块。

随即算法实现简单，但完全没考虑局部性原理（时间局部性），命中率低，实际效果很不稳定。

2.先进先出算法（FIFO）

若Cache已满，则替换最先被调入Cache的块。

举例：

从上图可以看到，红色出现很多次，这表明缓存块被频繁地替换，刚被替换的块很快又被重新调入，这称为抖动现象。

先进先出算法实现简单，但是依然没考虑局部性原理（时间局部性），因为最先被调入Cache的块也可能是被频繁访问的。

3.近期最少使用（LRU）

为每一个Cache块设置一个”计数器“，用于记录每个Cache块已经多久没被访问过了。当Cache满了之后替换”计数器“最大的。
计数规则：
- 命中时，所命中的行的计数器清零，比其低的计时器加1，其余不变（加一没有意义）。
- 未命中且还有空闲行时，新装入的行的计数器置0，其余非空闲行全加1。
- 未命中且没有空闲行时，计数值最大的行的信息块被淘汰，新装行的块的计数器置0，其余全加1。

举例：