显卡算力扫盲篇（二）

一提到 AI 计算，显卡性能，就有一大堆参数性能列表，这些列表全是一堆堆的参数数据，他们都代表啥？本文整理了常见的参数说明供大家了解。

FP64

FP64是指双精度浮点数格式，占用64位（即8字节）的存储空间，可以表示范围在±1.189731491523451 × 10^-308到±3.141592653589793 × 10^307之间的数值。在科学计算、计算机图形学等领域中，FP64是一种常用的浮点数格式，可以提供较高的精度和计算性能。

FP64 tensor core

FP64 Tensor Core是Tensor Cores支持的一种精度格式，它支持半精度（FP16）数据来加速矩阵乘法，并使用单精度（FP32）或双精度（FP64）数据来修正结果，以获得更高的精度。在Tensor Core中，FP16数据被划分为4x4的矩阵块，每个矩阵块都可以与另一个4x4的矩阵块相乘，生成一个4x4的FP32或FP64矩阵块。这种混合精度计算方法在加速深度学习模型的同时，可以保持高精度的计算结果。

FP32

FP32（单精度浮点数）是一种数字格式，占用32位（即4字节）的存储空间，可以表示范围在±1.189731491523451 × 10^-38到±3.4028234663852886 × 10^38之间的数值。FP32在计算机图形学、科学计算和许多其他领域中非常常见，因为它可以提供相对较高的精度和计算性能。在深度学习领域，FP32也经常用于训练和推理过程，因为它能够提供足够的精度来保持模型的准确性，同时仍然具有相对较高的计算性能。

FP32 tensor core

FP32 Tensor Core是Tensor Cores支持的一种精度格式。Tensor Core通过将输入的低精度数据（例如FP16）与高精度数据（例如FP32或FP64）结合起来，实现高精度计算的效果。具体来说，Tensor Core使用半精度（FP16）数据来加速矩阵乘法，并使用单精度（FP32）或双精度（FP64）数据来修正结果，以获得更高的精度。这种混合精度计算方法在加速深度学习模型的同时，可以保持高精度的计算结果。

bfloat 16 tensor core

BFloat16 Tensor Core是一种支持低精度浮点数（BFloat16）计算的计算单元，主要用于深度学习等大规模并行计算场景。它可以将BFloat16格式的数据用于矩阵乘法等计算操作，同时也可以接收其他格式（如FP32）的数据进行修正，以获得更高的精度结果。

BFloat16 Tensor Core主要优势在于能够提供更快的计算速度和更低的内存占用。由于BFloat16是一种较短的浮点格式，因此它可以在相同的计算单元中存储更多的数据，从而提高了计算密度和速度。此外，使用BFloat16还可以减少内存带宽和存储空间的需求，进一步提高计算效率。

然而，BFloat16 Tensor Core也存在一些缺点。由于其精度较低，它可能会在某些情况下导致精度损失或溢出问题。此外，BFloat16格式的数据在转换为其他格式（如FP32）时可能会存在精度损失的风险。

BFloat16 Tensor Core是一种针对深度学习等大规模并行计算场景的计算单元，能够提供更快的计算速度和更低的内存占用。然而，由于其精度较低，它可能存在精度损失或溢出问题，因此在使用时需要注意精度控制和溢出问题。

FP16 tensor core

FP16 Tensor Core是一种支持半精度（FP16）浮点数计算的计算单元，主要用于深度学习等大规模并行计算场景。它可以将FP16格式的数据用于矩阵乘法等计算操作，同时也可以接收其他格式（如FP32）的数据进行修正，以获得更高的精度结果。

FP16 Tensor Core的主要优势在于能够提供更快的计算速度和更低的内存占用。由于FP16是一种较短的浮点格式，因此它可以在相同的计算单元中存储更多的数据，从而提高了计算密度和速度。此外，使用FP16还可以减少内存带宽和存储空间的需求，进一步提高计算效率。

在深度学习领域，FP16 Tensor Core的应用非常广泛。许多深度学习框架和库都支持使用FP16进行模型训练和推理，例如TensorFlow、PyTorch、MXNet等。使用FP16 Tensor Core可以加速深度学习模型的训练和推理过程，同时保持足够的精度来满足实际应用的需求。

需要注意的是，使用FP16 Tensor Core进行计算时，由于数据精度的降低，可能会存在精度损失或溢出问题。因此，在使用时需要注意精度控制和溢出问题，例如使用归一化方法来处理数据的范围限制和溢出问题。

FP16 Tensor Core是一种针对深度学习等大规模并行计算场景的计算单元，能够提供更快的计算速度和更低的内存占用。在使用时需要注意精度控制和溢出问题，以确保计算的准确性和稳定性。

FP16 与 Bfloat16

FP16（半精度浮点数）和BFloat16（带符号的8位整数/定点数）都是浮点数格式，但它们之间存在一些差异。

FP16是一种标准的16位浮点数格式，它具有5个指数位和11个尾数位。这种格式可以表示大约±2^-15的指数范围，并且具有较高的精度。在深度学习领域，FP16通常用于训练和推理过程，因为它可以提供足够的精度来保持模型的准确性，同时仍然具有相对较高的计算性能。

BFloat16是一种较新的浮点数格式，它具有一个符号位、八个指数位和七个尾数位。与FP16相比，BFloat16的动态范围更大，可以表示比FP16更大的指数范围。此外，BFloat16可以直接表示梯度等渐变数据，而不需要进行额外的缩放操作。这种格式可以减少内存中的数据大小，并允许较大的模型容纳相同数量的内存。在深度学习领域，BFloat16也常用于训练和推理过程，因为它可以提供比FP16更大的动态范围和更低的内存占用。

FP16和BFloat16都是为了满足深度学习等大规模并行计算的需求而设计的。它们都可以提供相对较高的计算性能和足够的精度来保持模型的准确性。然而，BFloat16具有更大的动态范围和更低的内存占用，因此在某些情况下可能会比FP16更具优势。

FP8 tensor core

FP8 Tensor Core是一种新的浮点数格式，在H100 Tensor Core中引入。它相较于FP16/BF16能提供2x的性能提升，达到4096 MAC/cycle的水平。FP8的设计电路能和FP16在一定程度上重用，而FP8到FP16/FP32/BF16之间的转换电路可以设计得更简单直接，不需要像INT8/UINT8到FP的转化需要乘法和加法的开销。因此，FP8相对于INT8能更好地规范硬件的行为。硬件支持量化的做法各有差异，例如per-channel scale的支持、对称还是不对称的量化等，每个硬件的支持各异，行为难以统一。然而，FP8的设计可以在一定程度上规范硬件的行为，提高计算效率。

Int8 tensor core

Int8 Tensor Core是一种针对深度学习等大规模并行计算场景的专用矩阵运算单元，它首次出现在Volta架构的GPU中，并在后续的Turing和Ampere架构中得到发展。Int8 Tensor Core支持INT8数据格式，可以用于加速深度学习工作负载中的tensor运算，如矩阵乘法。它具有高达20倍以上的加速比，因为专门针对这个运算进行了优化。同时，它支持FP16和INT8精度，可以通过使用不同的精度来加速运算并减小内存使用。主流深度学习框架的GPU加速版本都已经深度集成了Tensor Core，可以自动利用其性能优势，这简化了开发流程。

GPU 显存与显存带宽

GPU显存和显存带宽都是与图形处理单元（GPU）性能密切相关的参数。以下是关于两者的详细解释：

GPU显存：

显存是GPU处理图形数据时使用的临时存储空间。它主要存储图形渲染过程中所需的数据，例如纹理、颜色缓冲等。显存容量决定了GPU可以临时存储的数据量，大容量的显存可以减少数据读取的次数，降低延迟，从而提高渲染效率。

显存位宽也是显存的重要参数。它是显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大。显存位宽是由显存颗粒的位宽组成的，它与显存频率共同决定了显存带宽的大小。

显存带宽：

显存带宽是指显示芯片与显存之间的数据传输速率，单位是字节/秒。它是由显存频率和显存位宽共同决定的。计算公式为：显存带宽＝显存频率×显存位宽/8。因此，提高显存带宽可以显著提升GPU的性能。

例如，对于一个具有256bit位宽和1.5GHz频率的显存，其带宽为256×1.5GB/s=384GB/s。如果将其频率提高到2.0GHz，那么带宽将增加到512GB/s，是原来的1.3倍。可见，提高显存带宽对于提升GPU性能是非常重要的。

GPU显存和显存带宽是相辅相成的参数。它们共同决定了GPU的性能和渲染效率。在选择GPU时，需要综合考虑这些参数以及核心代号、核心频率等其他因素来选择最适合自己需求的GPU。