cuda 单block多线程 - 代码天地

cuda 单block多线程

其他 2018-11-13 03:21:42 阅读次数: 0

cuda单block多thread的实现

#include <iostream>
#include <cuda_runtime.h>
#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <string.h>

__global__ void gpu_add(float*d_a,float*d_b,float*d_c,int n)//a,b,c数组,n是元素个数
{
	int idx = threadIdx.x;
	int IDX = idx;	
	d_c[idx] =d_a[idx] +d_b[idx];
	IDX+=idx;
}

int main()
{
	float *h_a,*h_b,*h_c,*d_a,*d_b,*d_c;
	int n = 1024;
	size_t nBytes = n * sizeof(float);
	time_t t;
	h_a = (float*)malloc(nBytes);
	h_b = (float*)malloc(nBytes);
	h_c = (float*)malloc(nBytes);
	srand((unsigned int)time(&t));
	for(int i = 0;i < n;++i)
	{
		h_a[i] = (float)(rand()&0xff)/10.0f;
		h_b[i] = (float)(rand()&0xff)/10.0f;
		std::cout << "h_a[" << i << "]=" << h_a[i] << "\t";
		std::cout << "h_b[" << i << "]=" << h_b[i] << "\n";
	}

	cudaMalloc((void**)&d_a,nBytes);
	cudaMalloc((void**)&d_b,nBytes);
	cudaMalloc((void**)&d_c,nBytes);

	cudaMemcpy(d_a,h_a,nBytes,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,h_b,nBytes,cudaMemcpyHostToDevice);
	
	gpu_add<<<1,n>>>(d_a,d_b,d_c,n);
	
	cudaMemcpy(h_c,d_c,nBytes,cudaMemcpyDeviceToHost);

	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	
	for(int i = 0;i < n;++i)
	{
		std::cout << "c[" << i<<"]=" <<h_c[i]<<"\n";
	}
	free(h_a);
	free(h_b);
	free(h_c);
}

猜你喜欢

转载自blog.csdn.net/m0_38036750/article/details/83479246

cuda 单block多线程

CUDA线程

CUDA之单thread单block&多thread单block&多thread多block

CUDA：网格（Grid）、线程块（Block）和线程（Thread）

C++多线程及CUDA编程（一）

【CUDA入门笔记】CUDA内核与线程配置

CUDA编程：Thread，Block，Grid

CUDA 编程--线程层次

最优的cuda线程配置

CUDA线程索引计算

cuda之线程分配

CUDA线程和块

cuda

cuda编程之thread，block and grid

cuda 多block多thread实现

CUDA 关于 BLOCK数目与Thread数目设置

CUDA:(二)对于Block， thread的简单理解

1. CUDA中的grid和block

CUDA C：线程、线程块与线程格

CUDA软件架构—网格（Grid）、线程块（Block）和线程（Thread）的组织关系以及线程索引的计算公式

CUDA-从GPU结构理解线程

《CUDA By Example》【Chapter 05】线程协作？

（二）了解CPU、GPU、进程、线程、CUDA

cuda 数组元素个数大于线程数目

CUDA编程（二）：核函数与线程层级

CUDA &C++ | 线程索引方法，多块多线程加法计算

CUDA中grid、block、thread、warp与SM、SP的关系

CUDA简介——Grid和Block内Thread索引

【CUDA并行程序设计系列（3）】CUDA线程模型

VS2017 CUDA编程学习5：CUDA并行执行-线程

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)