[CUDA]共享内存 - 代码天地

[CUDA]共享内存

编程语言 2018-05-13 15:32:40 阅读次数: 0

对于GPU上启动的每个线程块上的共享内存，CUDA C编译器都会创建该变量的一个副本。同一线程块的每个线程都共享这块内存，但是线程无法看到也不能修改其他线程块中的共享内存。这样做可以使得一个线程块中的多个线程能够在计算上通信和协作。

共享内存缓冲区驻留在物理GUP上，因此访问共享内存的延迟远远低于访问普通缓冲区的延迟。

共享内存的声明方式是在前面加上 __shared__

为了保持进程同步，可以使用cuda的函数__syncthreads();。这个函数的作用是为了确保线程块的每个线程都执行完__syncthreads();之前的语句后，才会执行下面的语句。

出于易于理解，写了一个简单的程序，大致功能就是对于一列数，每四个数字进行逆转位置

1 2 3 4 5 6 7 8 ----》 4 3 2 1 8 7 6 5

#include<cuda_runtime.h>
#include<windows.h>
#include<iostream>
using namespace std;
const int nMax = 50;
__global__ void exchangeKernel(float *aaa)
{
	int offset = threadIdx.x + blockDim.x * blockIdx.x;
	int x = threadIdx.x;
	__shared__ float tmp[4];
	int a = offset / 4;
	a = (a + 1) * 4 - (offset - a * 4) - 1; ///a为同一个block对应位置的offset
	tmp[x] = aaa[a];

	__syncthreads();
	aaa[offset] = tmp[x];
}

int main(){
	float a[nMax];
	float *devA;
	for (int i = 0; i < nMax; i++){
		a[i] = i;
	}
	cudaMalloc((void**)&devA, nMax*sizeof(float));

	cudaMemcpy(devA, a, nMax*sizeof(float), cudaMemcpyHostToDevice);

	exchangeKernel << <10, 4 >> >(devA );

	cudaMemcpy(a, devA, nMax*sizeof(float), cudaMemcpyDeviceToHost);


	for (int i = 0; i < 40; i++){
		cout << a[i] << " ";
	}cout << endl;
	cudaFree(devA);
	cin >> a[0];
	return 0;
}

猜你喜欢

转载自bbezxcy.iteye.com/blog/2263649

[CUDA]共享内存

CUDA 之共享内存

CUDA共享内存详解

CUDA 共享内存 bank conflict

CUDA编程（七）共享内存与Thread的同步

CUDA加速——共享内存介绍及其应用

cuda编程学习——CUDA共享内存性能优化（九）

CUDA（Ⅴ）：共享内存（shared memory）、同步（_syncthreads）、点积运算

cuda实现二维卷积共享内存

深度学习部署(十二): CUDA RunTime API 共享内存

CUDA学习（五）之使用共享内存（shared memory）进行归约求和

VS2017 CUDA编程学习7：线程同步-共享内存

3.6.cuda运行时API-共享内存的学习

CUDA编程（二）基础与简单实例（并行规约、共享内存）

CUDA简介——CUDA内存模式

共享内存

内存共享

【共享内存】

[cuda]常量内存

CUDA内存分配

CUDA 纹理内存

CUDA中的内存效率

CUDA——向量化内存

CUDA的内存组织

CUDA学习（六）之使用共享内存（shared memory）进行归约求和（M个包含N个线程的线程块）

cuda 矩阵乘法，从最容易理解到算得最快（第二版源码-tile机制+共享内存）

cuda编程学习——CUDA内存介绍（七）

CUDA&numba | 使用python分别在cpu和gpu全局内存和gpu共享内存进行矩阵乘法运算

linux 共享内存与nginx共享内存

共享内存之 POSIX的共享内存

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)