CUDA之向量逆向 - 代码天地

CUDA之向量逆向

其他 2018-10-20 18:50:24 阅读次数: 0

版权声明：林微原创，未经允许不得转载。 https://blog.csdn.net/Canhui_WANG/article/details/82913993

本文主要介绍基于CUDA的向量逆向，并结合三种CUDA异构内存进行相应优化。

1. 向量逆向

基于 Global memory 的核心算法

Global memory空间大，但是速度是所有Device内存中最慢的

__global__ void array_reverse(int *array_a_dev, int *array_a_rev_dev, int len)
{
    int tid = threadIdx.x;
    array_a_rev_dev[len - tid - 1] = array_a_dev[tid];
}

基于 Shared memory 的核心算法

当存在多个线程共同访问同一个数据的时候，可以将该数据放到shared memory中，以提高数据读取效率

__global__ void array_reverse_shared(int *array_a_dev, int *array_a_rev_dev, int len)
{
    int tid = threadIdx.x;
    __shared__ int array_shared[9];
    array_shared[tid] = array_a_dev[tid];
    __syncthreads();
    array_a_rev_dev[len - tid - 1] = array_shared[tid];
}

基于Dynamic shared memory 核心算法

Dynamic shared memory 通过采用extern的声明而不定义的方式，提高了代码的灵活性，比方说，dynamic shared memory可以在同一个程序的不同kernel中被定义，也可以动态地根据需求进行shared memory内存空间的分配。如下，

__global__ void array_reverse_dynamic_shared(int *array_a_dev, int *array_a_rev_dev, int len)
{
    int tid = threadIdx.x;
    extern __shared__ int array_shared[];
    // __shared__ int array_shared[9];
    array_shared[tid] = array_a_dev[tid];
    __syncthreads();
    array_a_rev_dev[len - tid - 1] = array_shared[tid];
}

Dynamic shared memory的kernel的调用有些不同，

array_reverse_dynamic_shared<<<dimGrid, dimBlock, len*sizeof(int)>>>(array_a_dev, array_a_rev_dev, len);

注：动态变化 (或者说，非预编译的变量) 的内存空间大小 (比如，这里的len*sizeof(int)) 需要在kernel函数调用时定义。

2. 编译调试

基于 Global memory 的代码

源代码：array_rev.cu

编译

nvcc array_rev.cu -o main

运行

./main

基于 Shared memory 的代码

源代码：array_rev_sm.cu

编译

nvcc array_rev_sm.cu -o main

运行

./main

基于 Dynamic shared memory 的代码

源代码：array_rev_dynamic_sm.cu

编译

nvcc array_rev_dynamic_sm.cu -o main

运行

./main

猜你喜欢

转载自blog.csdn.net/Canhui_WANG/article/details/82913993

CUDA之向量逆向

CUDA之向量加法

cuda实现向量相加

CUDA——向量化内存

Matplotlib利用指数函数的向量及其逆向向量绘图

逆向分析c++ vector向量

CUDA C编程向量加法-第3章 CUDA 简介

GPU/CUDA程序初体验向量加法

CUDA编程模型系列二(向量操作)

iOS逆向之fishhookDemo

Mybatis之逆向工程

Android逆向之smail

mybatisPlus之逆向工程

Window逆向基础之逆向工程介绍

CUDA安装之问题

CUDA之矩阵乘法

CUDA 之共享内存

cuda之线程分配

CUDA异步并发之CUDA流详解

【CUDA并行编程之五】计算向量的欧式距离

CUDA编程--并行矩阵向量乘法【80+行代码】

CUDA编程--简单程序--向量加一

CUDA:（一）基本设备管理函数、向量相加

CUDA & C++ | 向量加法并行计算

CUDA笔记--实现一个__global__向量加法

CUDA & C++ | 使用CUDA流在锁页内存中进行向量加法

VS2017 CUDA编程学习实例1：CUDA实现向量点乘

VS2017 CUDA编程学习4：CUDA并行处理初探 - 向量加法实现

iOS 逆向之ARM汇编

iOS开发之逆向工程

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)