CUDA学习系列教程（三） - 代码天地

CUDA学习系列教程（三）

其他 2019-01-29 10:30:59 阅读次数: 0

CUDA编程模型

CUDA最大的特点：对线程块将在何处、何时运作不作保证。
优点：

硬件真正有效的运行，灵活
无需要线程间互相等待
可扩展性强
后果：
对于那个块哪个SM上运行无法进行任何假设
无法获取块之间的明确通讯(hard to get communications between blocks)
dead lock (并行死锁）
线程退出

CUDA编程模型的原则

所有在同一个线程块上的线程必然会在同一时间运行在同一个SM上
同一个内核的所有线程块必然会全部完成了后，才会运行下一个内核

内存模型
在这里插入图片描述
内存速度比较

同步性synchronisation和屏障barrier

不同的线程在共享和全局内存中读写数据需要有先后的控制，所以引入了同步性的概念。
屏障的作用：用来控制多个线程的停止与等待，当所有线程都到达了屏障点，程序才继续进行。

CUDA编程模型
在这里插入图片描述
CUDA编程模型示意图

CUDA程序中CPU是主导地位，负责完成以下的事情：

从CPU同步数据到GPU
从GPU同步数据到CPU
(1,2使用cudaMemcpy)
给GPU分配内存(cudaMalloc)
加载Kernel到GPU上,launch kernel on GPU

猜你喜欢

转载自blog.csdn.net/weixin_42104289/article/details/83627936

CUDA学习系列教程（三）

CUDA学习系列教程（二）

CUDA学习系列教程（一）

CUDA学习系列教程（四）

CUDA学习笔记三

CUDA学习笔记（三）

CUDA 学习笔记三

Linux系列教程（三）——Linux学习技巧

CUDA系列学习（三）GPU设计与结构QA coding练习

CUDA编程模型系列三(矩阵乘)

MySQL系列教程（三）

【pocketflow系列三】教程

webservice 教程学习系列(三)——关于webservice的几个问题

学习教程系列

深度学习系列教程

JDBC系列教程（三）---语句

ORACLE学习系列三

机器学习环境配置系列一之CUDA

CUDA系列学习（四）Parallel Task类型与 Memory Allocation

NVIDIA CUDA初级教程视频 - 学习笔记（五）CUDA/GPU 编程模型

redis学习教程（三）

Keras学习教程三

pygame学习教程（三）

学习kafka教程（三）

webservice学习教程（三）--

sql学习教程（三）

CUDA学习

NIO系列学习教程

openCV系列学习教程

Python爬虫学习系列教程

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)