NVIDIA CUDA初级教程视频 - 学习笔记（四）GPU体系架构概述 - 代码天地

NVIDIA CUDA初级教程视频 - 学习笔记（四）GPU体系架构概述

其他 2021-03-06 09:19:39 阅读次数: 0

第5集

名词解释

 FLOPS – FLoating-point OPerations per Second
 GFLOPS - One billion (109) FLOPS
 TFLOPS – 1,000 GFLOPS

思路1：精简、减肥（拿掉CPU中繁杂的管理人员）

n个核同时执行n个程序片元
指令流共享，多个程序片元共享指令流（不共享的话就需要复杂控制机构，又有额外开销）

思路2：增加ALU， SIMD（数据向量操作）

128个程序片元同时执行，并发16路指令流

分支处理如何办？

由于共享指令流，需要一部分等待另一部分先执行

SIMD处理并不总是需要显式的SIMD指令
 选项1：显示的向量运算指令
SSE等
 选项2：标量指令，但是硬件进行矢量化
硬件进行指令流共享
NVIDIA等架构
多个片元共享指令流

思路3：应对停滞stalls

大量的独立片元相互切换，通过片元切换来掩藏延迟（分配给ALU很多任务，任务一需要等待时就进行任务二）

上下文存储池

18个小的上下文：好的延迟掩藏效果

12个中等大小的上下文

4个大的上下文：延迟掩藏效果较差

上下文切换可以软件也可以硬件管理！

带宽是非常宝贵的资源！

访存很慢乘加计算很快

减少带宽需求：

减少数据请求

减少数据请求频率（把多个小数据攒到一起进行）

猜你喜欢

转载自blog.csdn.net/weixin_41703033/article/details/86519071

NVIDIA CUDA初级教程视频 - 学习笔记（四）GPU体系架构概述

NVIDIA CUDA初级教程视频--（四）

NVIDIA CUDA初级教程视频 - 学习笔记（一）CPU体系架构概述

NVIDIA CUDA初级教程视频 - 学习笔记（五）CUDA/GPU 编程模型

NVIDIA CUDA初级教程视频 - 学习笔记（二）并行程序设计概述

NVIDIA CUDA初级教程视频--目录

NVIDIA CUDA初级教程视频--（五）

NVIDIA CUDA初级教程视频--（二）

NVIDIA CUDA初级教程视频--（一）

Mysql学习初级教程

【GPU】Nvidia CUDA 编程高级教程——NVSHMEM 内存模型

CUDA(四) 周斌 GPU体系架构概述

NVIDIA GPU运算能力与CUDA显卡驱动

NVIDIA GPU SM和CUDA编程理解

Matlab-初级教程-系列1：matlab之入门教学视频-1matlab概述

pytorch安装教程(GPU：Nvidia GTX 3060)

网页制作初级教程学习资料

OpenDayLight学习及开发初级教程

NVIDIA DIGITS 学习笔记（NVIDIA DIGITS-2.0 + Ubuntu 14.04 + CUDA 7.0 + cuDNN 7.0 + Caffe 0.13.0）

Linux CentOS安装NVIDIA GPU驱动程序和NVIDIA CUDA工具包

Nvidia gpu驱动安装教程 & nvidia-smi定时输出gpu信息

[笔记] 基于nvidia/cuda的深度学习基础镜像构建

docker使用cuda gpu的时候缺少nvidia-uvm

ubuntu循环登录 login loop Nvidia GPU GTX CUDA

nvidia+cuda9.0+cudnn7+tensorflow-gpu1.6.0安装

CUDA之nvidia-smi命令详解---gpu

Ubuntu18.04+Nvidia+Cuda10+TensorFlow-GPU2.0

Nvidia GPU 最新计算能力表（CUDA Compute Capability）

NVIDIA GPU Driver, CUDA 和 PyTorch的版本关系

NVIDIA GPU Turing架构简述

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)