CUDA中的内存效率 - 代码天地

CUDA中的内存效率

其他 2021-01-25 10:24:57 阅读次数: 0

GPU内存结构

片外存储
- 常量内存（读取速度较快）
- 纹理内存
- 全局内存
片内存储
- 每个SP中的32位寄存器组（以线程为单位）
- 共享存储（与cache速度类似）（以线程块为单位）
- 只读的常量内存缓存（以网格为单位）
- 只读的纹理内存缓存

不同存储类型的访问时间

存储类型	寄存器	共享内存	常量内存	全局内存
带宽	8TB/s	1.5TB/s	200MB/s	200MB/s
延迟	一个周期	1—32个周期	400—600周期	400—600周期

数据存储的位置
- 使用cudaMemcpy从主机拷贝到GPU的数据存储在全局内存，常量内存或纹理内存
- 将数据放置到共享内存需要程序员手工定义共享内存区域，并将数据从全局内存放到共享内存
- 绝大多数的线程内部分配的变量在寄存器中

全局内存

尽量在同一时刻让线程组请求连续的内存地址，从而提高全局内存的访问效率

CUDA常用的编程策略
- 将要处理的数据划分为小块数据，使其刚好存储在共享内存中
- 将小块数从全局内存送入共享内存，使用多线程读取可以有效利用内存级的并行
- 线程块中的线程对位于共享内存中的小块数据进行计算
- 将计算结果从共享内存传回到全局内存

共享内存

共享内存是基于存储体切换的架构（如果没有存储体冲突，共享内存的访问速度与寄存器相同）

猜你喜欢

转载自blog.csdn.net/qq_42573343/article/details/105295513

CUDA中的内存效率

CUDA中的图内存节点

3.3.cuda运行时API-内存的学习，pinnedmemory，内存效率问题

CUDA 6/8 中的统一内存

CUDA 6/8 中的统一内存

CUDA中的虚拟内存管理

CUDA中的流序内存分配

初步介绍CUDA中的统一内存

CUDA中的统一内存详解

CUDA简介——CUDA内存模式

CUDA:核函数中几种变量所属内存的类型

CUDA中的锁页内存 Page-Locked Memory详解

CUDA中的L2级设备内存管理

PyTorch中，18个速度和内存效率优化技巧

[CUDA]共享内存

[cuda]常量内存

CUDA内存分配

CUDA 纹理内存

CUDA 之共享内存

CUDA——向量化内存

CUDA共享内存详解

CUDA的内存组织

cuda编程学习——CUDA内存介绍（七）

CUDA算法效率提升关键点概述

CUDA学习五：纹理内存

【CUDA】分配内存使用void**

CUDA 共享内存 bank conflict

关于CUDA 分配固定内存

CUDA（Ⅷ）：纹理内存（Texture Memory）

CUDA（Ⅵ）：常量内存（Constant Memory）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)