CUDA简介——同步 - 代码天地

CUDA简介——同步

企业开发 2023-12-16 17:56:18 阅读次数: 0

1. 引言

前序博客：

在这里插入图片描述

本文重点关注Thread同步和Barriers。

Threads并行执行，可能存在如下问题：

1）Race condition条件竞争：Thread A会在Thread B写入结果之前，读取某地址的值。

为此，需要引入Thread同步机制：

强迫一部分Device代码顺序执行，以强迫同一Block内的Threads同步。
具体可为：
- 1）实现Explicit Barrier：Barrier为Kernel内某个point，在该point，Block内所有Threads会stop并相互等待。当Block内所有Threads都到达该Barrier时，会继续各自执行。
  具体实现方式为：__syncthreads();

以数组左移为例：

由于a[i]=a[i+1]为读写操作，需确保a[i]先读后写。为此，需引入名为temp的register。并__syncthreads;等待所有读取操作完成。
为确保所有位移操作均已结束，再返回位移后的结果，需__syncthreads;等待所有写操作完成。

在这里插入图片描述

除此之外，还可实现Kernel launches间的Implicit Barrier：

Host代码并不会等待Device代码执行结束返回后，再继续执行后续Host代码。即Host代码和Device代码是异步执行的。
为让Host代码等待kernel执行完成，需使用关键字：cudaDeviceSynchronize()。这样，Host代码会暂停，直到前一kernel执行完成。

不过，若连续启动2个kernel，则确保第二个kernel无法分配grid到device中执行，其implicitly需等待第一个kernel执行结束后，才会执行第二个kernel。
在这里插入图片描述

参考资料

[1] Intro to CUDA (part 6): Synchronization

猜你喜欢

转载自blog.csdn.net/mutourend/article/details/134786788

CUDA简介——同步

CUDA简介

CUDA是什么-CUDA简介

CUDA简介——CUDA内存模式

CUDA-同步

CUDA 同步和异步

CUDA简介——编程模式

《CUDA By Example》【Chapter 03】CUDA C简介

CPU、GPU、CUDA，CuDNN 简介

CUDA学习笔记（1）——简介

CUDA简介——基本概念

CUDA简介——For循环并行化

Linux 内核同步简介

GPS同步时钟简介

GPU 高性能编程 CUDA : CUDA C 简介

CUDA编程（一）：GPU计算与CUDA编程简介

CUDA C编程向量加法-第3章 CUDA 简介

CUDA编程（七）共享内存与Thread的同步

CPU、GPU、CUDA，CuDNN 简介（转）

【CUDA并行程序设计系列（2）】CUDA简介及CUDA初步编程

golang线程同步WaitGroup简介

Redis同步机制简介

网络时钟同步系统简介

linux 时钟同步 chrony 简介

CUDA（Ⅴ）：共享内存（shared memory）、同步（_syncthreads）、点积运算

[nlp] pytorch测模型耗时同步torch.cuda.synchronize()

1. CUDA编程手册中文版---CUDA简介

CUDA C Programming Guide 笔记——1.简介

CUDA简介——Grid和Block内Thread索引

多线程的同步和互斥简介

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)