CUDA-全局内存读取-实验（缓存+非缓存-Fermi架构-sm2.1） - 代码天地

CUDA-全局内存读取-实验（缓存+非缓存-Fermi架构-sm2.1）

其他 2020-03-12 16:41:18 阅读次数: 0

特别声明：设备GT540M, 计算能力2.1.代码附在后面；

缓存加载:

（1）Fermi架构，默认情况是启用L1缓存，即采用128字节内存事务。

采用不同的偏移量，以实现非对齐访问。命令行为：“nvprof --metircs gld_efficiency test.exe N” (N为偏移量)。采用批处理，计算0-255的偏移量的全局内存加载效率，统计结果如下：偏移量每隔32，跳变一次。

非缓存加载（L2缓存）

（1）Fermi架构，编译命令：-Xptxas -dlcm=cg 禁用L1缓存，即采用32字节内存事务。偏移量每隔8，跳变一次。

代码如下：

#include"iostream"
#include"cuda_runtime.h"
#include"device_launch_parameters.h"
using namespace std;
__global__ void fun1(float* datain,float* dataout,int n,int offset)
{
    int idx=threadIdx.x+blockIdx.x*blockDim.x;
    int k=idx+offset;
    if(k<n)
        datain[idx]=datain[k]+dataout[k];
}
int main(int argc,char* argv[])
{
	int offset = atoi(argv[1]);
	cout << offset << endl;
    const int N=512*15000;
    float* h_out,*h_in,*d_in,*d_out;

    cudaMallocHost((void**)&h_in,N*sizeof(float));
    cudaMallocHost((void**)&h_out,N*sizeof(float));
    cudaMalloc((void**)&d_in,N*sizeof(float));
    cudaMalloc((void**)&d_out,N*sizeof(float));
    for(int i=0;i<N;i++)
    {
        h_in[i]=i;
    }
    cudaMemcpy(d_in,h_in,N*sizeof(float),cudaMemcpyHostToDevice); 
    fun1<<<15000,512>>>(d_in,d_out,N,offset);
    cudaMemcpy(d_out,h_out,N*sizeof(float),cudaMemcpyDeviceToHost); 
    
    cudaDeviceSynchronize();
    return 0;
}

武泗海

发布了56 篇原创文章 · 获赞 30 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_17239003/article/details/79038649

CUDA-全局内存读取-实验（缓存+非缓存-Fermi架构-sm2.1）

CUDA-全局内存读取-实验（缓存+非缓存-Pascal架构-sm6.1）

CUDA-全局内存的区别与用法

CUDA全局内存读取

CUDA全局内存-对齐与合并

cuda编程学习——CUDA全局内存性能优化（八）

全局内存

笔记04：全局内存

CUDA学习笔记2——全局内存的合理使用（以矩阵转置为例，讲述全局内存的合并访问以及__ldg()）

GPU存储器架构-- 全局内存本地内存寄存器堆共享内存常量内存纹理内存

CUDA-非空流中的阻塞流

浅析MySQL内存的使用说明（全局缓存+线程缓存）

Yac 2.1 发布，PHP 共享内存无锁内容缓存

【缓存】【内存缓存】【磁盘缓存】

Memcached内存数据缓存群集实验

CUDA-流

CUDA-设备属性

CUDA-同步

CUDA&numba | 使用python分别在cpu和gpu全局内存和gpu共享内存进行矩阵乘法运算

bitmap缓存——内存缓存

内存缓存

内存与缓存

缓存架构

CUDA--只读缓存

mybatis 全局缓存解析

【openresty】全局缓存

内存缓存和硬盘缓存

内存缓存与磁盘缓存详解

Fermi架构GPU个人笔记

SpringBoot项目中整合Redis非关系数据库作为内存缓存框架，测试数据读取，new RedisCacheManager(redisTemplate)没有此构造。

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)