Revise o catálogo geral

02325 "Computer System Architecture" lista de chaves de revisão de auto-exame

5. Supercomputador altamente paralelo com pipeline e nível de instrução

5.1 Método de sobreposição

(1) No modo de sobreposição do processador escalar, a correlação quadrática é a instrução $\mathbf{k}$ incremento $\mathbf{k+2}$ Existeuma correlação gravação após leitura. (p154)
Primário e secundário referem-se ao número de instruções separadas por instruções relacionadas; relacionado a gravação-gravação refere-se ao fato de que duas instruções devem gravar o conteúdo na mesma unidade.

5.2 Método de fluxo

(1) Classificação de pipelines (p157)
① De acordo com a ideia de expansão descendente e expansão ascendente, pode ser dividido em pipelines de subprocessos de funções de computador e pipelines entre vários processadores.
② O pipeline pode ser dividido em nível de componente , nível de processador e nível de sistema de acordo com o nível de processamento .
Nível de componente : o fluxo entre os subcomponentes no componente;
nível do processador : o fluxo entre os componentes que compõem o processador;
nível do sistema : o fluxo entre vários processadores que compõem o sistema do computador.
③ Do número de funções da linha de montagem , ela pode ser dividida em linha de montagem de função única e linha de montagem multifuncional .
Fluxo de função única: Somente o fluxo de função única pode ser realizado, e vários fluxos de função única devem ser combinados para completar o fluxo multifuncional.
Pipeline multifuncional: Pode haver muitos métodos de conexão diferentes entre os vários segmentos do mesmo pipeline para alcançar diferentes funções.
Dependendo se cada seção do pipeline multifuncional pode ser usada para várias funções diferentes para conectar o pipeline ao mesmo tempo, o pipeline pode ser dividido em pipeline estático e pipeline dinâmico .
Cada segmento do pipeline estático só pode ser conectado ao pipeline de acordo com uma função dentro de um determinado período de tempo. ④ A partir da representação de dados
do computador , ele é dividido em máquina de fluxo escalar e máquina de fluxo vetorial. ⑤ Se houver um loop de feedback
entre as várias seções funcionais no pipeline , ele pode ser dividido em pipeline linear e pipeline não linear .

(2) Resumir os métodos gerais, abordagens e características do IBM360/91 para resolver o controle de fluxo. (Exercícios pós-escolares 5-10, perguntas de resposta curta)
O método de usar o controle de pipeline é o processamento distribuído do tipo barramento.
Abordagem:
① Defina o sinalizador de bit ocupado em cada registrador para determinar se é relevante. Quando o registrador estiver em uso, defina o sinalizador de bit ocupado do registrador para "1"; quando o registrador for liberado, seu sinalizador de bit ocupado será zerado para "0". Portanto, ao acessar um registrador, observe primeiro o sinalizador de bit ocupado, se for "1", significa correlação.
② Configure vários pipelines e deixe-os trabalhar em paralelo. Ao mesmo tempo, configure várias estações de armazenamento nas extremidades de entrada e saída de cada pipeline para armazenar e armazenar informações. Depois de correlacionados, fluem de forma assíncrona.
③ Controle a conexão de canais dedicados relevantes através dos números das estações distribuídas.
④ Os caminhos dedicados relevantes adotam o modo de barramento, e a conexão de diferentes caminhos dedicados relacionados pode ser realizada alterando o número da estação após a correlação.
Características:
① Não é necessário comparar o endereço do operando de origem e o endereço do operando de destino de cada instrução que entra no pipeline para determinar se existe uma correlação. Portanto, o controle de julgamentos relevantes é bastante simplificado.
② Para o fluxo assíncrono, os três tipos de correlações de escrever primeiro e depois ler, primeiro ler e depois escrever e escrever e escrever podem ser resolvidos convenientemente e sem distinção.
③ O canal dedicado relevante adota o modo de barramento, para que o canal possa ser compartilhado por vários canais relacionados, o que simplifica muito o hardware.
④ Vários pipelines adotam paralelismo assíncrono e várias instruções relacionadas podem ser vinculadas o tempo todo, para que o sistema tenha alto desempenho

(3) O conceito de correlação global de máquinas de pipeline e quatro métodos para lidar com a correlação global. (p169, pergunta de resposta curta)
A correlação global refere-se à correlação entre a instrução de transferência que entrou no pipeline e suas instruções subsequentes .
Existem quatro métodos para lidar com a correlação global: adivinhar , acelerar e formar códigos de condição com antecedência , adotar transferência atrasada e acelerar o processamento de programas de loop curto .

(4) No processamento relacionado global, o método de adivinhação é usado para garantir que a cena original do ponto de ramificação seja restaurada após adivinhar errado. (p170, pergunta de resposta curta) Método 1
: Apenas decodifique a instrução e prepare os operandos e não execute operações antes que o código da condição de transferência apareça ; Método 2: Deixe a instrução concluir a operação sem enviar de volta o resultado da operação, desde que como o palpite está correto , o ramo pode ser enviado Retorne o resultado do cálculo; Método 3, use o registro de backup para salvar o estado original que pode estar danificado . Uma vez que o palpite esteja errado , retire o conteúdo do backup registrar para restaurar a cena do ponto de ramificação.

（5）流水机器的中断处理（p171）
流水机器 IBM 360 / 91 对指令中断的处理方法是不精确断点法。

5.3 向量的流水处理与向量流水处理机

（1）CRAY - 1 向量处理的一个显著特点是只要不出现功能部件使用冲突和源向量寄存器使用冲突，通过链接机构可使有数据相关的向量指令仍能大部分时间并行执行。

5.4 指令级高度并行的超级处理机

（1）超标量处理机与超流水处理机的区别。（p188，简答题）
① 超标量处理机 是利用资源重复，设置多个执行部件寄存器堆端口；
② 超流水处理机 是着重开发时间并行，在公共的硬件上采用较短的时钟周期，深度流水来提高速度，需使用高速的时钟机制来实现。

（2）超标量超流水线处理机是 超标量流水线 和 超流水线 处理机的结合。（p188）

6. 阵列处理机

6.1 阵列处理机的原理

（1）阵列处理机的构形主要有采用 分布式 存储器阵列构形和采用 集中式共享 存储器阵列构形。（p193）

（2）阵列处理机与流水线处理机的区别。（p195，简答题）
① 阵列处理机利用的是资源重复，流水线处理机利用的是时间重叠；
② 阵列处理机利用的是并行性中的同时性，流水线处理机利用的是并行性中的并发性；
③ 阵列处理机使用简单、规整的互连网络来确定处理单元之间的连接，流水线处理机的功能部件一般比较固定。

6.2 SIMD 计算机的互连网络

（1）在SIMD 系统的互连网络的设计目标中，为了降低成本，要求结构不要过分复杂；为满足算法和应用的需要，要求互连要灵活。（p201）

（2）ILLICA Ⅳ 阵列处理机中，PE 之间所用的互连函数是 $\mathbf{PM2_{\pm 0}}$ 和 $\mathbf{PM2_{\pm 3}}$ 。（p203）

（3）混洗交换单级网络，最远的两个单元建立连接需要 $n - 1$ 次混洗和 $n$ 次交换。（p205）
理解：以 $n = 3$ 为例，先用混洗互连函数可以得到虚线部分连线，因为这样不足以让全 0 和全 1 的处理单元和其他的连接，添加了 $\mathrm{Cube_0}$ 交换函数，也就是实线部分。让 0 和 7 连接需要经过 $0\to 1\to 2\to 3\to 6\to 7$ ，2 次混洗，3 次交换。

在这里插入图片描述

（4）多级立方体网络对各个交换开关的控制方式。（p205，简答题）
级控制：同一级的所有开关只用一个控制信号控制，同时只能处于同一种状态；
单元控制：每一个开关都由自己独立的控制信号控制，可各自处于不同的状态；
部分级控制：第 i 级的所有开关分别用 $i + 1$ 个信号控制，其中 $0\le i\le n-1$ ， $n$ 为级数。

（5）实现全排列网络的两种方法。（p213，简答题）
① 在多级互连网络的输出端设置锁存器，使数据在时间上顺序通行两次；
② 将 $\mathrm{log_2}N$ 级的互连网络和它的逆网络连在一起，省去中间完全重复的一级，得到总级数为 $\mathrm{2log_2}N-1$ 的全排列网络。

6.3 共享主存构形阵列处理机中并行存储器的无冲突访问

6.4 脉动阵列处理机

（1）脉动阵列结构的特点。（p218，简答题）
① 结构简单、规整，模块化强，可扩充性好，非常适合用超大规模集成电路实现。
② 处理单元 (PE) 间数据通信距离短、规则，使数据流和控制流的设计、同步控制等均简单规整。
③ 脉动阵列中所有 PE 能同时运算，具有极高的计算并行性，可通过流水获得很高的运算效率和吞吐率。
④ 脉动阵列结构的构形与特定计算任务和算法密切相关，具有某种专用性。

7. 多处理机

7.1 多处理机的概念、问题和硬件结构

（1）多处理机的概念（p223，简答题）
多处理机是指有两台以上的处理机，共享 I/O 子系统，机间经共享主存或高速通信网络通信，在统一操作系统控制下，协同求解大而复杂问题的计算机系统。

（2）设计多处理机的目的。（p223，简答题）
① 通过多台处理机对多个作业、任务进行并行执行来提高解题速度，从而提高系统的整体性能;
② 使用冗余的多个处理机通过重新组织来提高系统的可靠性、适应性和可用性。

（3）由于应用的目的和结构不同，多处理机有 同构型、异构型 和 分布型 三种。（p223）

（4）多处理机与阵列处理机在指令流和并行等级的区别。（p223，简答题）
阵列处理机：单指令流多数据流，主要针对向量、数组处理，实现向量指令操作级的并行，是开发并行性的同时性；
多处理机：多指令流多数据流，实现的是更高一级的作业或任务间的并行，是开发并行性的并发性。

（5）多处理机有紧耦合和松耦合两种不同的构形。（p224，简答题）

（6）松耦合多处理机中，每台处理机都有一个容量较大的 局部存储器，用于存储经常用的指令和数据，以减少紧耦合系统中存在的 访主存 冲突。（p226）

（7）采用分布式结构的多处理机机间互连形式为开关枢纽结构。（p232）

7.2 紧耦合多处理机多 Cache 的一致性问题

（1）紧耦合多处理机中解决多 Cache 一致性的办法。（p236~237，简答题）
① 解决进程迁移引起的多 Cache 不一致性，可以通过禁止进程迁移的方法予以解决，也可以在进程挂起时，靠硬件方法将 Cache 中该进程改写过的信息块强制写回主存相应位置。
② 以硬件为基础实现多 Cache 的一致性，主要有监视 Cache 协议法，即各个处理机中的 Cache 控制器随时都在监视着其他 Cache 的行动。另一种是目录表法，建立一个目录表，记录每一个数据块的使用情况。
③ 以软件为基础实现多 Cache 的一致性，例如依靠编译程序的分析，不把一些公用的可写数据存入 Cache 中。

7.3 多处理机的并行性和性能

（1）多处理机程序并行性（p240~242）
① “先写后读” 数据相关：不能并行执行，特殊情况可以交换串行
② “先读后写” 数据反相关：不能交换串行，硬件上保证对相关单元先读后写次序就可以并行
③ “写写” 数据输出相关：不能交换串行，保证先写后写顺序就能并行
④ 同时 “先写后读” 和 “先读后写” 两种相关：必须并行执行，不能顺序串行也不能交换串行。
理解：
“先写后读” 如：A=B+D; C=A*E 第二步的输入用到第一步的输出，能交换串行的特殊情况是 A=2*A; A=3*A
“先读后写” 如：C=A+E; A=B*D 第二步会输出第一步的输入
“写写” 如：A=B+D; A=C+E 两步的输出相同
同时 “先写后读” 和 “先读后写” 如：A=B; B=A 交换数据
交换就是两步计算交换顺序，串行就是顺序执行

（2）多处理机任务粒度（p247）
任务粒度过小，辅助开销大，系统效率低；
任务粒度过大，并行度低，性能不会很高。
处理机之间通信较少的应用程序宜用 细粒度 处理，要求冗长计算才能得到结果的题目宜用 粗粒度 处理。

7.4 多处理机的操作系统

（1）多处理机操作系统有 3 种类型： 主从型、各自独立型 和 浮动型。（p248）

7.5 多处理机的发展

（1）对称多处理机的各个处理器的地位是均等的，可以同等地访问 共享存储器、I/O 设备和运行操作系统。（p250）

8. 数据流机和归约机

（1）传统的 Von Neumann 型计算机采用控制驱动方式；非 Von Neumann 型计算机包括使用数据流语言，基于数据驱动的数据流计算机；使用函数语言，基于需求驱动的归约机。（p256）

8.1 数据流计算机

（1）数据流计算机中的数据驱动的策略是 滞后求值。（p258）

（2）根据对 数据令牌 处理的方式不同，数据流计算机可以划分为静态和动态两种类型。（p263）

（3）数据流机器存在的问题。（p264）
① 数据流机主要目的是为了提高操作级并行的开发水平，但如果题目本身数据相关性很强，内涵并行性成分不多时，就会使效率反而比传统的 Von Neumann 型机的还要低。
② 在数据流机器中为给数据建立、识别、处理标记，需要花费较多的辅助开销和较大的存储空间。
③ 数据流机不保存数组。对标量运算有利，而对数组、递归及其他高级操作比较难管理。
④ 数据流语言的变量代表数值而不是存储单元位置，使程序员无法控制存储分配。为有效回收不用的存储单元，增大了编译程序的难度。
⑤ 数据流机互连网络设计困难，输入 / 输出系统仍不够完善。
⑥ 数据流机没有程序计数器，给诊断和维护带来了困难。

8.2 归约机

（1）归约机结构的特点。（p265，简答题）
① 归约机应当是面向函数式语言，或以函数式语言为机器语言的非 Neumann 型机器；
② 具有大容量物理存储器并采用大虚存容量的虚拟存储器，具备高效的动态存储分配和管理的软、硬件支持；
③ 处理部分应当是一种有多个处理器或多个处理机并行的结构形式；
④ 采用适合于函数式程序运行的多处理器 (机) 互连的结构，最好采用树形方式的互连结构或多层次复合的互连结构形式；
⑤ 尽量把运行进程的结点机安排成紧靠该进程所需用的数据，并使运行时需相互通信的进程所占用的处理机也靠近，让各处理机的负荷平衡。

（2）根据机器内部对函数表达式所用存储方式的不同，将归约方式分成 串归约 和 图归约 两类。（p265）

02325 "Arquitetura de sistema de computador" Questões conceituais de auto-exame: capítulos 5 a 8