CPU-GPU交互:
各自的物理内存空间
通过PCIE总线互连(8GB/s~16GB/s)
交互开销较大
线程组织架构说明
一个Kernel具有大量线程
线程被划分成线程块‘blocks’
一个block内部的线程共享 ‘Shared Memory’
可以同步 ‘_syncthreads()’
Kernel启动一个‘grid’,包含若干线程块
用户设定
线程和线程块具有唯一的标识
编程模型:
常规意义的GPU用于处理图形图像
操作于像素,每个像素的操作都类似
可以应用SIMD (single instruction multiple data)
Single Instruction Multiple Thread (SIMT):
GPU版本的 SIMD(线程模型而非指令模型)
大量线程模型获得高度并行
线程切换获得延迟掩藏
多个线程执行相同指令流
GPU上大量线程承载和调度