CUDA编程 - 代码天地

CUDA编程

其他 2018-04-22 14:41:22 阅读次数: 4

函数申明：

　　__global__ void KernelFunc()　　Executed:device　　Callable:host
　　__device__ float DeviceFunc()　　......:device　　　　......:device
　　__host__ float HostFunc()　　　　......:host　　　　　......:host

　　__global__:　

　　　　　　返回值必须是void

　　__device__:

　　　　　　曾今默认内联，现在有一些变化。

　　Global和Device函数：

1. 尽量少用递归
2. 不要使用静态变量
3. 少用malloc
4. 小心通过指针实现的函数调用

向量数据类型：
- 　　char[1-4],uchar[1-4]
- 　　short[1-4],ushort[1-4]
- 　　int[1-4],uint[1-4]
- 　　long[1-4],ulong[1-4]
- 　　longlong[1-4],ulonglong[1-4]
- 　　floa[1-4]
- 　　double1,double2
向量数据类型
- 　　同时适用于host和device代码，通过函数make_<type name>构造

int2 i2 = make_int2(1, 2);

float4 f4 = make_float4(1.0f, 2.0f, 3.0f, 4.0f);

- 通过.x, .y, .z,and .w访问

int2 i2 = make_int2(1, 2);

int x = i2.x;

int y = i2.y;

数学函数
- 　　部分函数列表
  - sqrt,rsqrt
  - exp,log
  - sin,cos,tan,sincos
  - asin,acos,atan2
  - trunc,ceil,floor
- Intrinsic function内建函数
  - 仅面向Device设备端
  - 更快，但精确度降低
  - 以__为前缀，例如：
    - __exp,__log,__sin,__pow,......
线程同步
- 快内线程可以同步
- 调用__syncthreads创建一个barrier栅栏
- 每个线程在调用点等待块内所有线程执行到这个地方，然后所有线程继续执行后续指令

Mds[i] = Md[j]

__syncthreads()

func(Mds[i], Mds[i+1])

线程调度
- Wrap一块内的一组线程　　
  - G80/GT200 - 32个线程
  - 运行于同一个SM
  - 线程调度的基本单元
  - threadIdx值连续
  - 一个实现细节 - 理论上
    - WrapSize
内存模型
- 寄存器Registers
  - 每个线程专用
  - 快速，片上，可读写
  - 增加Kernal的寄存器用量，会导致什么结果？
- 寄存器Register
  - 每个SM
    - 多达768threads
    - 8K个寄存器
- 局部存储器Local Memory
  - 存储于global memory
    - 作用域每个thread
  - 用于存储自动变量数组
    - 通过常量索引访问
- 共享存储器Shared Memory
  - 每个块
  - 快速，片上，可读写
  - 全速随机访问
  - 每个SM包括8个block，16KB共享存储器
- 全局存储器Global Memory
  - 长延时（100个周期)
  - 片外，可读写
  - 随机访问影响性能
  - Host主机端课读写
  - GT200
    - 带宽：150GB/s
    - 容量：4GB
  - G80 - 86.4GB/s
- 常量存储器Constant Memory
  - 短延时，高带宽，当所有线程访问同一位置是只读
  - 存储于gloabl memory但是有缓存
  - Host主机可读写
  - 容量:64KB

Gloabl and constant变量
- Host 可以通过以下函数访问：
  - cudaGetSymbolAddress()
  - cudaGetSymbolSize()
  - cudaMemcpyToSymbol()
  - cudaMemcpyFromSymbol()
- constants变量必须在函数外声明

猜你喜欢

转载自www.cnblogs.com/zhaohu/p/8907067.html

[CUDA] CUDA编程入门

CUDA编程

cuda 编程

[CUDA]CUDA C并行编程

CUDA编程之CUDA流

CUDA编程——zero copy

CUDA编程模型

CUDA编程前言

CUDA编程——树状加法

cuda编程之 __syncthreads()

cuda编程之atomicAdd

CUDA 编程--线程层次

CUDA编程理解与案例

CUDA编程：Hello world

CUDA 编程指南

CUDA编程：流stream

CUDA编程：内核kernel

CUDA编程：基本框架

CUDA Basic编程

CUDA编程：查询设备

cuda编程学习

CUDA编程学习笔记

cuda编程 MergeSort

CUDA编程注意

57 CUDA 编程入门

CUDA编程出现错误

CUDA编程：与OpenCV结合

cuda编程过程心得

CUDA 编程学习

CUDA编程学习相关

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)