Intel, AMD及VIA CPU的微架构（27）

9.11. 寄存器的部分访问

一个通用寄存器的不同部分可以保存在不同的临时寄存器中，以消除伪依赖性。一个寄存器部分写后跟一个整个寄存器读时，出现一个问题：

; Example 9.4. Partial register problem

mov al, 1

mov ebx, eax

通过插入一个额外的μop来合并寄存器的不同部分，在Sandy Bridge中解决了这个问题。我假定这个额外的μop在ROB-读阶段生成。在上面的例子中，ROB-读将生成一个额外的μop，在MOV EBX, EAX指令前，将AL与EAX余下部分合并为一个临时寄存器。写一个部分寄存器没有惩罚，除非稍后读同一个寄存器更大的部分。

Ivy Bridge仅在高8位寄存器（AH，BH，CH，DH）被修改时插入一个额外的μop，在像例子9.4的情形里不会。

标记的部分访问暂停

Sandy Bridge与Ivy Bridge不仅对通用寄存器，还对标记寄存器使用一个额外μop来整合部分寄存器的方法，不像之前的处理器仅对通用寄存器使用这个方法。这发生在写标记寄存器一部分，后跟读该标记寄存器更大一部分时。因此，之前处理器的部分标记寄存器暂停（参考第89页）被一个额外的μop所替代。在一条旋转指令后读标记寄存器时，Sandy Bridge也产生一个额外的μop，Ivy Bridge不会。

向量寄存器的部分访问

在重排缓冲中，一个XMM寄存器不会分解为部分。因此，无需额外μop，在写一个XMM寄存器的部分时，也没有部分访问暂停。但写一个向量寄存器部分有对寄存器之前值的一个依赖。参考第103页的例子8.8。

在VEX指令里，YMM寄存器的两个半部总是视为相关的，但在VEX与非VEX模式间切换时，两个半部可以分开，如下所述。

9.12. VEX与非VEX模式间的转换

AVX指令集定义了三个处理器模式，如手册2“优化汇编例程”，章节13.6“使用AVX指令集与YMM寄存器”描述的那样。这三个状态是：

（干净状态）YMM寄存器高半部没有使用，且已在为零。
（修改状态）至少一个YMM寄存器的高半部被使用，且包含数据。
（保存状态）所有YMM寄存器被分为两部分。低半部由XMM指令使用，高半部不变。所有高半部都保存在一个暂存器（scratchpad）中。如果转换到状态B需要，每个寄存器的两部分将被再次接合起来。

状态C是一个不期望的状态。在混合使用YMM寄存器的代码与使用XMM寄存器的非VEX指令代码时出现。BàC，CàB及CàA的转换，根据我的测量，在Sandy Bridge上，每个大约需要70个时钟周期。AàC及BàA的转换需要零或一个时钟周期。最好不混用VEX与非VEX代码，以及在任何使用VEX编码指令的代码序列后插入一条VZEROUPPER指令，避免至/自状态C的慢速转换。

9.13. 缓存与内存访问

缓存	Sandy Bridge与Ivy Bridge
μop缓存	每核1536 μop，8路，每行6 μop
1级代码	每核32 kB，8路，每行64 B，时延4
1级数据	每核32 kB，8路，每行64 B，时延4
2级	每核256 kB，8路，每行64 B，时延11
3级	最多16 MB，12路，每行64 B，时延28，共享

表9.5. Sandy Bridge上的缓存大小

每个核上有一个缓存，除了最后一级缓存。在一个核可以运行两个线程时，所有的缓存在线程间共享。将来可能有更多版本具有不同的最后一级缓存大小。

缓存库冲突

在数据缓存中，每个连续的128字节，或两个缓存行，被分为8个库，每个16字节。如果两个内存地址有相同的库号码，即两个地址的4 – 6比特位相同，不可能在同一时钟周期里执行这两个读。例如：

; Example 9.5. Sandy bridge cache bank conflict

mov eax, [rsi] ; Use bank 0, assuming rsi is divisible by 40H

mov ebx, [rsi+100H] ; Use bank 0. Cache bank conflict

mov ecx, [rsi+110H] ; Use bank 1. No cache bank conflict

另外，在具有相同组与偏移的内存地址间，即相距4K字节的倍数，存在一个伪依赖：

; Example 9.6. Sandy bridge false memory dependence

mov [rsi], eax

mov ebx, [rsi+1000H] ; False memory dependence

未对齐的内存访问

对操作数大小是64位或更小的非对齐内存访问，几乎没有惩罚，除非使用多个缓存库。

指令预取

Ivy Bridge预取指令有一个问题。看起来Ivy Bridge浪费时间在预取已经在缓存中的数据。在Ivy Bridge上，从同一地址重复预取的测量吞吐率是每43时钟周期一次预取，而在Sandy Bridge上是每时钟周期两条预取指令的吞吐率。

9.14. 写转发暂停

在特定条件下，处理器可以将一个内存写转发给相同地址的一个后续读。相比之前的处理器，这个写转发可以在更多的情形下工作，包括非对齐的情形。写转发在以下情形工作：

一个64位或更小的写，后跟一个相同大小与相同地址的读时，不管是否对齐。
一个128或256位写，后跟一个相同大小与相同地址的读时，16字节边界对齐。
一个64位或更小的写，后跟一个更小的完全包含在写地址范围里时，不管是否对齐。
一个任意大小的对齐写，后跟两部分的两个读，或四部分的四个读等，在写地址范围里自然对齐时。
一个128位或256位对齐写，后跟一个64位或更小的、没有跨过8字节边界的读时。

对64位或更小的写转发，跨越缓存行边界没有惩罚。如果读的操作数比之前的写要大，或者与写地址部分重叠，写转发不能工作：

; Example 9.7. Failed store forwarding when read bigger than write

mov dword ptr [esi], eax ; Write lower 4 bytes

mov dword ptr [esi+4], edx ; Write upper 4 bytes

movq xmm0, qword ptr [esi] ; Read 8 bytes. Stall

在大多数情形里，对失败写转发的惩罚是大约12个时钟周期。

在写没有对齐到至少16字节边界时，对128位或256位写转发，惩罚会异常地大。在这个情形里，我测得在Ivy Bridge上，16字节读/写大约是50时钟周期，32字节读/写大约是210时钟周期。

9.15. 多线程

Sandy Bridge与Ivy Bridge的某些版本在每个核上可以运行两个线程。这意味着每个线程仅得到一半资源。资源以下面的方式在运行在同一个核上的两个线程间共享：

缓存：所有的缓存资源完全在线程间共享。一个线程用得越多，另一个可以用的越少。

分支目标缓冲与分支历史模式表：这些在线程间完全共享。

指令获取与解码：指令获取器与解码器在两个线程间平均共享，每个线程隔一个时钟周期使用它们。

循环缓冲：每个线程一个循环缓冲。

寄存器分配与重命名资源平均共享，每个线程隔一个时钟周期使用它们。

重排缓冲与保留站。这些完全共享。

执行端口与执行单元。这些完全共享。一个线程可以使用一个执行端口，而另一个线程使用另一个端口。

读写缓冲：这些完全共享。

永久寄存器文件：每线程一个。

显然，如果任一共享资源是性能的限制因素，每核运行两个线程没有好处。不过，在许多情形里，执行资源超出单个线程所需。在大量时间花在缓存不命中与分支误预测的情形里，每个核运行两个线程特别有优势。不过，任一共享资源是瓶颈时，每核运行两个线程没有优势。相反，每个线程很可能运行得比单个线程一半还慢，因为缓存与分支目标缓冲中的逐出，以及其他资源冲突。在CPU中没有办法给一个线程比另一个线程更高的优先级。

1. Sandy Bridge与Ivy Bridge中的瓶颈

指令获取与预解码

指令获取与解码非常类似于之前的处理器，仍然是一个瓶颈。幸运的是，新的μop缓存降低了解码器的压力。

μop缓存

新的μop缓存有了显著的提高，因为在代码的关键部分适合μop缓存时，它消除了指令获取与解码的瓶颈。现在，很容易得到每时钟周期4条指令的最大吞吐率（或者宏融合的5条），即使对更长的指令。

程序员应该小心在CPU密集代码中经济地使用μop缓存。适合μop缓存的循环与不适合μop缓存的循环之间的性能差异相当可观，如果平均指令长度超过4字节。

在旧的P4/NetBurst处理器中，μop缓存有点类似追踪缓存（参考第39页），具有某些相同的弱点。地址与数据操作数需要超过32位储存的指令可能在μop缓存中使用额外的空间，且需要额外一个时钟周期载入。优化代码避免这些弱点是可能的，但这不可能由任何人来完成，而是最专业的汇编程序员。

对我而言，为什么处理器没有在代码缓存中标记指令边界是一个谜。这将消除指令长度解码的瓶颈，因而消除μop缓存的需要。AMD处理器这样做，旧的Pentium MMX也同样。

寄存器读暂停

这个旧的瓶颈，自Pentium Pro起困扰Intel处理器，最终被消除了。在我的测量中没有检测到这样的暂停。

执行端口与执行单元

执行端口与执行单元的能力相当高。许多μop可在2个或3个执行端口间选择，每个单元每时钟周期可处理一个完整的256位向量操作。因此，如果指令平均分配在端口之间，执行端口的吞吐率不是一个严重的瓶颈。

如果代码产生许多去往相同执行端口的μop，执行端口会是平均。

执行时延与依赖链

执行时延通常是低的。大多数整数ALU操作仅有一个时钟周期的时延，即使对256位向量操作。执行时延仅在长的依赖链中是关键的。

部分寄存器访问

在写寄存器一部分后，读整个寄存器有一个惩罚。使用MOVZX或MOVSX将8位或16位内存操作数读入一个32位寄存器，而不是使用寄存器更小的部分。

回收

在我的所有测试中，都没有观察到μop的回收成为一个瓶颈。

分支预测

分支预测器没有专门识别循环。带有许多分支循环的预测逊色于之前的处理器。分支历史模式表与分支缓冲可能比之前的处理器大，但误预测仍然常见。对适合μop缓存的代码，误预测惩罚要更小。

内存访问

Sandy Bridge有两个内存读端口，而之前的处理器仅有一个。这是一个重要的改进。在最大内存带宽利用率时，缓存库冲突相当常见。

Ivy Bridge预取指令有一个严重的问题，它极慢。

多线程

大多数关键资源在线程间共享。这意味着在多线程应用程序中，瓶颈变得更加关键。

文献

"Intel 64 and IA-32 Architectures Optimization Reference Manual". Intel 2011.