CUDA实现矩阵复制 - 代码天地

CUDA实现矩阵复制

其他 2021-11-28 23:03:58 阅读次数: 0

关键是线程分配方式，将一个大矩阵分成一片一片的矩阵，用线程的ny,nx来分别表示矩阵的行和列，但由于一般矩阵都是用一个一维数组进行存储，所以最终对应到全局内存的index还得利用行和列转成一维的index。

#include <stdio.h>

const int N = 128;  // matrix' dim
const int TILE_DIM = 32; // block size
const int SIZE = sizeof(int) * N * N; // memory

void __global__ copy(int *da, int *db, const int N);

void __global__ copy(int *da, int *db, const int N)
{
    
    
    int ny = blockIdx.y * TILE_DIM + threadIdx.y;
    int nx = blockIdx.x * TILE_DIM + threadIdx.x;

    int index = ny*N + nx; // get each index
    if(ny<N && nx<N)
    {
    
    
        db[index] = da[index];
    }


}

int main(int argc, char *argv[])
{
    
    
    // host memory and assignment
    int *ha, *hb;
    ha = (int *)malloc(SIZE);
    hb = (int *)malloc(SIZE);

    for(int i=0; i< N*N; ++i)
    {
    
    
        ha[i] = 100;
    }
    // device memry
    int *da, *db;
    cudaMalloc((void **)&da, SIZE);
    cudaMalloc((void **)&db, SIZE);

    cudaMemcpy(da, ha, SIZE, cudaMemcpyHostToDevice);
    // kernel function
    const dim3 block_size(TILE_DIM, TILE_DIM);
    const int grid_size_x = (N +TILE_DIM -1) / TILE_DIM;
    const int grid_size_y =  grid_size_x;
    const dim3 grid_size(grid_size_x, grid_size_y);

    copy<<<grid_size,block_size>>>(da,db,N);

    // device to host
    cudaMemcpy(hb,db,SIZE,cudaMemcpyDeviceToHost);

    printf("%d\n",hb[100]);

    // free
    free(ha);
    free(hb);
    cudaFree(da);
    cudaFree(db);

    return 0;

}

猜你喜欢

转载自blog.csdn.net/wulele2/article/details/119088273

CUDA实现矩阵复制

CUDA实现矩阵相乘

CUDA实现矩阵相加的并行计算

CUDA:矩阵乘法的实现(Share Memory)

CUDA编程--实现并行矩阵乘法【80行代码】

CUDA:矩阵转置的GPU实现(Share Memory)

两种方法利用CUDA实现矩阵乘法

CUDA 矩阵相乘

CUDA矩阵转置

CUDA之矩阵乘法

CUDA矩阵乘法

cuda矩阵编程（一）

cuda矩阵之心得

cuda Sgemm矩阵乘法优化

Numpy：矩阵复制

Matlab矩阵复制扩充

【CUDA】CMakeLists实现CUDA编译

《cuda c编程权威指南》05 - cuda矩阵求和

cuda 在GPU和CPU之间复制数组

【CUDA学习】结构体指针复制（好）

cuda中用cublas库做矩阵乘法

CUDA:二维矩阵运算的应用

【CUDA】矩阵乘法（从简单到进阶）

Tensor Core加速CUDA矩阵计算

CUDA编程模型系列三(矩阵乘)

cuda实现中值滤波

cuda实现向量相加

CUDA实现JPEG编码

CUDA 的硬件实现

CUDA 的硬件实现

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)