简要：

本文阐述了

1、Nvidia GPU 内存结构

2、计算能力(SM) 和架构的关系

GPU 硬件架构

GPU 可以理解为由计算单元和内存的集合。

GPU 内存：GPU的内部存储分为片上存储和片下存储（相对于 SM）；具体可细分为：局部内存(local memory)、全局内存（global memory）、常量内存（constant memory）、图像/纹理（texture memory）、共享内存（shared memory）、寄存器（register）、L1/L2缓存、常量内存/纹理缓存（constant/texture cache）

计算单元（SM）：每一个SM都有自己的控制单元（Control Unit），寄存器（Register），缓存（Cache），指令流水线（execution pipelines）

Turing 架构实物图

下图为 Turing 架构的 GPU 结构示意图：

内存

GPU 的内存机制

如下图所示，数据如果参与计算，那么它的流动如下：

Global memory ->L2->L1(或者其它缓存如：shared_memory 纹理等)->寄存储器（local memory）

SM (Turing 架构) 示意图

全局内存

全局内存（global memory）是数据通常用的内存，它能被设备内的所有线程访问、全局共享，为片下（off chip）内存，硬件HBM中的大部分都是用作全局内存。跟CPU架构一样，运算单元不能直接的使用全局内存的数据需要经过缓存，过程如下图所示：

cudaMalloc(&ptr, size);

cudaMallocAsync(&ptr, size,stream); 
//cudaMallocAsync(&ptr, size, cudaStreamPerThread);
// do work using the allocation
//kernel<<<..., cudaStreamPerThread>>>(ptr, ...);
// An asynchronous free can be specified without synchronizing the cpu and GPU
//cudaFreeAsync(ptr, cudaStreamPerThread);

cudaMallocPitch(&devPtr, &pitch,
                width * sizeof(float), height); 

cudaMalloc3D(&devPitchedPtr, extent);
// Nvidia 一致致力于易用性 向 C++ STL 看齐
cudaMallocArray(&cuArray, &channelDesc, width, height);

L1/L2缓存

L2为所有SM都能访问到，速度比全局内存块，所以为了提高速度有些小的数据可以缓存到L2上面；L1为SM内的数据，SM内的运算单元能够共享，但跨SM之间的L1不能相互访问。

L2 可以被显式的使用（cuda 11 ），去优化性能

Nvida示例： Cuda 11 L2 示例

共享内存（shared memory)

共享内存是片内内存，被 SM 独享，SM 内的块所共享。

共享内存是片内存储，和 L1的速度相当

共享内存与L1的位置、速度极其类似，区别在于共享内存的控制与生命周期管理与L1不同，共享内存的使用受用户控制，L1受系统控制，shared memory更利于block之间数据交互。

Kernel <<< * , 线程，共享内存>>>>，kernel 执行第三个分配资源

__global__ void staticReverse(int *d, int n)
{
  __shared__ int s[64]; // 分配的共享内存
  int t = threadIdx.x;
  int tr = n-t-1;
  s[t] = d[t];
  __syncthreads();
  d[t] = s[tr];
}

局部内存(local memory)

局部内存(local memory) 是线程独享的内存资源，线程之间不可以相互访问，硬件位置是off chip状态，所以访问速度跟全局内存一样。局部内存主要是用来解决当寄存器不足时的场景，即在线程申请的变量超过可用的寄存器大小时，会将变量存储在局部内存中。

寄存器（register）

寄存器（register）是线程能独立访问的资源，它所在的位置与局部内存不一样，是在片上（on chip）的存储，用来存储一些线程的暂存数据。寄存器的速度是访问中最快的，但是它的容量较小。以目前最新的Ampere架构的GA102为例，每个SM上的寄存器总量256KB，使用时被均分为了4块，且该寄存器块的64KB空间需要被warp中线程平均分配，所以在线程多的情况下，每个线程拿到的寄存器空间相当小。寄存器的分配对SM的占用率（occupancy）存在影响，可以通过CUDA Occupancy Calculator 计算比较，举例：如图当registers从32增加到128时，occupancy从100%降低到了33.0。一般 Occupancy 越高，kernel 优化的越好。

Kernel <<< * , 线程>>>>，kernel 执行第二个分配资源

常量内存(constant memory)

常量内存(constant memory) 是指存储在片下存储的设备内存上，但是通过特殊的常量内存缓存（constant cache）进行缓存读取，常量内存为只读内存。为什么需要设立单独的常量内存？直接用global memory或者shared memory不行吗？

主要是解决一个warp内多线程的访问相同数据的速度太慢的问题，如下图所示：

所有的运算的thread都需要访问一个constant_A的常量，在存储介质上面constant_A的数据只保存了一份，内存的物理读取方式决定了这么多thread不能在同一时刻读取到该变量，所以会出现先后访问的问题，这样使得并行计算的thread出现了运算时差。常量内存正是解决这样的问题而设置的，它有对应的cache位置产生多个副本，让thread访问时不存在冲突，从而提高并行度。

图像/纹理内存（texture memory）

图像/纹理（texture memory）是一种针对图形化数据的专用内存，其中texture直接翻译是纹理的意思，但根据实际的使用来看texture应该是指通常理解的1D/2D/3D结构数据，相邻数据之间存在一定关系，或者相邻数据之间需要进行相同的运算。 texture内存的构成包含 global + cache + 处理单元，texture为只读内存。

SM架构

如图所示，是一个P100显卡的SM架构，包含了四个Tex。Tex是专门用来处理texture的单元，进行数据拿取（fetch）的时候，能够在一个clock时钟内完成对数据的一些预处理。texture的优势：

texture memory 进行图像类数据加载时， warp内的thread访问的数据地址相邻，从而减少带宽的浪费。
texture 在运算之前能进行一些处理（或者说它本身就是运算），比如聚合、映射等。

最后放一张各个存储的对比图：

数据来源CUDA best practices

Streaming Multiprocessor (SM)

图灵 SM 被划分为四个处理块(block )，每个处理块有 16 个 FP32 核、 16 个 INT32 核、两个张量核、一个 warp 调度器和一个调度单元。每个块包括一个新的 L0 指令缓存和一个 64kb 的寄存器文件。四个处理块共享一个组合的 96kbl1 数据缓存/共享内存。传统图形工作负载将 96 KB L1 /共享内存划分为 64 KB 的专用图形着色器 RAM 和 32 KB 的纹理缓存和寄存器文件溢出区域。计算工作负载可以将 96 KB 划分为 32 KB 共享内存和 64 KB L1 缓存，或 64 KB 共享内存和 32 KB L1 缓存。

CudaCore （streaming processors）

CudaCore 又叫 SP , CudaCore 是GPU的计算单元。可以分为 FP32 、INT32 、TensorCore（这个划分不适合老版本架构的 cuda core）

TensorCore

Nvidia TensorCore 详细介绍

TensorCore 是 Nvidia 提供的特殊的计算单元，如下图所示，一个指令完成一个矩阵乘法（是硬件的加速单元）

TensorCore支持的精度如下：

TensorCore 对不同架构的支持：

NVIDIA Ampere GPU Architecture Tuning Guide :: CUDA Toolkit Documentation

warp

wrap 是 Nvidia 线程调度的基本单位，32 个线程为一个 wrap, 每个 SM 有一个 Wrap 调度器。一个 SP(cuda core) 在同一时间只能执行一个wrap。

在同一时刻运行的 wrap 称作 active wrap, Occupancy就是每个SM的active warp占最大warp数目的比例。Occupancy 是衡量计算资源利用率的最重要的指标。

其它

SFU （special Function uint）特殊数学计算单元：如 sin cos ；LD/ST（Load/Store Unit）存储单元

GPU 架构的变化

GPU 架构总览

	版本号（计算能力）
Tesla 古董	1*
Fermi 古董	2*
Kepler	35 37
Maxwell	50 52 53
Pascal	60 61 62
Volta	70 72
Turing	75
Ampere	80 86 87