【CUDA学习笔记(一)】CUDA概述和编程模型

1.CUDA概述

CUDA是英伟达公司于2006年提出的通用并行计算架构,通过开启GPU中的多线程并行计算,以比在CPU上更高效的方式解决许多复杂的计算问题。

CUDA提供了一个软件环境,允许开发者使用c++作为高级编程语言。如下图所示,同时也支持其他语言、应用程序编程接口,如FORTRAN、DirectCompute、OpenACCCUDA支持的编程语言和硬件GPU型号
CUDA核心是三个关键的抽象——线程组的层次结构、共享内存和障碍同步。这些抽象提供了细粒度的数据并行和线程并行,嵌套在粗粒度的数据并行和任务并行中。它们指导程序员将问题划分为粗的子问题,这些子问题可以由线程块独立并行地解决,而每个子问题又可以由块内的所有线程协作并行地解决。

2.编程模型

2.1线程

CUDA c++扩展了c++,允许程序员定义c++函数,称为内核。内核是通过使用”global”说明符定义的,对于给定的内核调用,执行该内核的CUDA线程数是使用一个新的<<<…>>>执行配置语法。每个执行内核的线程都有一个惟一的线程ID,可以在内核中通过内置变量访问这个ID。

下面的示例代码使用内置变量threadIdx、blockDim、blockIdx
两个向量A和B相加,并将结果存储到向量C中:

//核函数定义
__global__ void
vectorAdd(const float *A, const float *B, float *C, int numElements)
{
    int i = blockDim.x * blockIdx.x + threadIdx.x;

    if (i < numElements)
    {
        C[i] = A[i] + B[i];
    }
}
//主函数
int main()
{
...
//核函数调用
vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, numElements);
...
}

2.2线程结构

在CUDA并行编程模式中,最基本的执行单元是线程(thread),众多线程组成一个线程块(block),众多线程块组成一个线程网格(Grid)。同一线程网格中的所有线程共享同全局内存空间。每个块的线程数是有限制的,因为一个块的所有线程都应该驻留在同一个处理器内核上,并且必须共享该内核的有限内存资源。在当前的gpu上,一个线程块可以包含多达1024个线程。编程者可以根据需要自行决定线程的排列方式,可以是一维排列、二维排列、三维排列,下图中的线程示例是二维排列的。

线程的索引和它的线程ID以一种简单的方式相互关联,threadIdx是内置变量,用于索引线程位置。

CUDA线程结构

原创文章 3 获赞 1 访问量 84

猜你喜欢

转载自blog.csdn.net/qisen12306/article/details/106100833
今日推荐