1.CUDA概述

CUDA是英伟达公司于2006年提出的通用并行计算架构，通过开启GPU中的多线程并行计算，以比在CPU上更高效的方式解决许多复杂的计算问题。

CUDA提供了一个软件环境，允许开发者使用c++作为高级编程语言。如下图所示，同时也支持其他语言、应用程序编程接口，如FORTRAN、DirectCompute、OpenACC CUDA支持的编程语言和硬件GPU型号
CUDA核心是三个关键的抽象——线程组的层次结构、共享内存和障碍同步。这些抽象提供了细粒度的数据并行和线程并行，嵌套在粗粒度的数据并行和任务并行中。它们指导程序员将问题划分为粗的子问题，这些子问题可以由线程块独立并行地解决，而每个子问题又可以由块内的所有线程协作并行地解决。

2.编程模型

2.1线程

CUDA c++扩展了c++，允许程序员定义c++函数，称为内核。内核是通过使用”global”说明符定义的，对于给定的内核调用，执行该内核的CUDA线程数是使用一个新的<<<…>>>执行配置语法。每个执行内核的线程都有一个惟一的线程ID，可以在内核中通过内置变量访问这个ID。

下面的示例代码使用内置变量threadIdx、blockDim、blockIdx
两个向量A和B相加，并将结果存储到向量C中:

//核函数定义
__global__ void
vectorAdd(const float *A, const float *B, float *C, int numElements)
{
    int i = blockDim.x * blockIdx.x + threadIdx.x;

    if (i < numElements)
    {
        C[i] = A[i] + B[i];
    }
}
//主函数
int main()
{
...
//核函数调用
vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, numElements);
...
}

2.2线程结构

在CUDA并行编程模式中，最基本的执行单元是线程（thread），众多线程组成一个线程块（block），众多线程块组成一个线程网格（Grid）。同一线程网格中的所有线程共享同全局内存空间。每个块的线程数是有限制的，因为一个块的所有线程都应该驻留在同一个处理器内核上，并且必须共享该内核的有限内存资源。在当前的gpu上，一个线程块可以包含多达1024个线程。编程者可以根据需要自行决定线程的排列方式，可以是一维排列、二维排列、三维排列，下图中的线程示例是二维排列的。

线程的索引和它的线程ID以一种简单的方式相互关联，threadIdx是内置变量，用于索引线程位置。

CUDA线程结构

彩虹海再飞行

原创文章 3 获赞 1 访问量 84

关注私信

【CUDA学习笔记（一）】CUDA概述和编程模型

这里写目录标题

1.CUDA概述

2.编程模型

2.1线程

2.2线程结构

猜你喜欢