(五)利用GPU计算整数相加 CUDA

#include <iostream>
using namespace std;
#include <cuda.h>  // CUDA头文件


__global__ void mykernel(void) {
        cout << "hello cuda!\n";
// 此函数代码由设备执行,主机代码调用
// 设备函数由NVIDA编译器编译
// 主机函数由主机上配置的编译器编译
// 三个尖括号<<< >>>标志着一个从主机代码调用设备代码的函数
// 称为"启动内核(kernel launch)"
}
__global__ void integer_add(int *a, int *b, int *c){
        *c = *a + *b;
}

// 函数声明
void add(void);

int main(void){
        mykernel<<<1,1>>>();
        // <<<Dg,Db,Ns,S >>>
        // Dg:Dimension of grid  网格维度
        // Db:Dimension of block 块维度
        // Ns:可选参数,用于设置每个block除了静态分配的shared Memory以外,
        //      最多能动态分配的shared Memory大小,单位位byte。不需要动态分配
        //      时该值为0或省略不写。
        //      是一个cudaSteam_t类型的可选参数,初始值为0,表示该核函数处在
        //      哪个流之中   
        add();
        return 0;
}
void add(void){
        int a, b, c;
        int *d_a, *d_b, *d_c;
        int size = sizeof(int);

        // 1、设置使用的GPU
        cudaSetDevice(0);

        // 2、 分配现存空间
        cudaMalloc((void**)&d_a, size);
        cudaMalloc((void**)&d_b, size);
        cudaMalloc((void**)&d_c, size);

        cout << "输入两个整数用空格隔开:\n";
        cin >> a >> b;

        // 3、 将宿主程序数据复制到显存中
        cudaMemcpy(d_a, &a, size, cudaMemcpyHostToDevice);
        cudaMemcpy(d_b, &b, size, cudaMemcpyHostToDevice);

        // 4、 执行程序,让GPU进行计算,宿主程序等待显卡执行完毕
        integer_add<<<1, 1>>>(d_a, d_b, d_c);

        // 5、将计算后的结果从显存数据拷贝到宿主程序    
        cudaMemcpy(&c, d_c, size, cudaMemcpyDeviceToHost);

        // 6、释放显存空间
        cudaFree(d_a);
        cudaFree(d_b);
        cudaFree(d_c);

        cout << "结果为:" << c << endl;
}

猜你喜欢

转载自blog.csdn.net/lemon4869/article/details/53525855