CUDA入门笔记（一）GPU设计思路、背景知识 - 代码天地

CUDA入门笔记（一）GPU设计思路、背景知识

其他 2018-09-16 16:21:02 阅读次数: 0

参考：

优达学城：https://classroom.udacity.com/courses/cs344/lessons/55120467/concepts/670611900923

CUDA Zone：https://www.nvidia.cn/object/cuda_education_cn_old.html

一、GPU如何提高运算速率

提高运算速率的思路有三：

1.使用更高的时钟

2.每个时钟周期进行更多的运算

3.使用多个处理器并行计算（GPU的思想）

If you were plowing a field, which would you rather use? Two strong oxen or 1024 chicken?

——超级计算机之父 Seymour Cray

*Solve big problems by breaking them to smaller pieces and then run these smaller pieces at the same time.

*每一个小的工作称为“thread”，线程

二、CPU速度提升遇到瓶颈

1.晶体管体积逐年递减，处理器体积因此随之递减

下图2.1：处理器特征尺寸随时间变化

图2.1 处理器体积减小

更小。更快、更低功耗、可以集成更多处理单元，因此得到了更多可以计算的资源。

然而，计算速度更快的另一个因素是，时钟频率一直在上升（如图2.2）。而近几年时钟频率趋于平缓，因此并不是一件好事情。即，时钟频率没有在变快，只是处理单元变多，导致运算速度加快。

图2.2 时钟频率上升

三、需求

1.加速硬件需求

CPU硬件控制复杂=>性能灵活，电力消耗、设计复杂度高

因此，要设计简单的控制结构，supporting more computation in the data path.

GPU<=>建造大量并行简单控制结构的单元

2.运行效率目标衡量标准

1）执行时间

2）吞吐量（单位时间执行工作量）

*有时两个标准并不一致，在图像处理领域，我们更在乎吞吐量。

四、核GPU设计原则

1.利用很多简单的计算单元计算复杂的问题，用更简单的控制单元达成更多计算

*这导致在GPU编程的时候，程序员面临着更多限制

2.GPU有显式并行编程模型

*必须以多处理器的形式进行编程，不能当作只有一个处理器

3.GPU的目的是最优化吞吐量，而非最优化计算时长

五、从软件开发者角度

并行运算的重要性->牺牲复杂度换取计算效率是很值的

猜你喜欢

转载自blog.csdn.net/AuntieLee/article/details/82467447

CUDA入门笔记（一）GPU设计思路、背景知识

Ubuntu16.04：CUDA学习笔记（一）：GPU背景知识

CUDA入门笔记（三）GPU编程基础——一个典型GPU程序

CUDA入门笔记（二）CUDA编程基础——CPU、GPU的关系

CUDA学习笔记（一）之CUDA安装及GPU硬件介绍

【CUDA入门笔记】GPU存储结构模型（2）

【CUDA入门笔记】GPU存储结构模型（1）

cuda，GPU的一些概念（面试笔记）

cuda学习笔记一之GPU基本概念

CUDA学习笔记（2）—— GPU

CUDA笔记--GPU的存储结构

CUDA学习笔记（一）：浅析GPU计算——CPU和GPU的选择

LTE学习笔记（一）——背景知识

CUDA 编程入门-GPU信息读取

Cuda笔记【1】GPU计算DEMO

《GPU并行计算与CUDA编程》笔记

【CUDA入门笔记】概述

《CUDA 编程入门》笔记

利用CUDA进行GPU编程（一）

CUDA编程（一）：GPU计算与CUDA编程简介

CUDA入门（一）

【CUDA入门笔记】CUDA内核与线程配置

一、python背景知识

CUDA学习笔记（一）

CUDA 学习笔记一

CUDA学习笔记一

CUDA学习笔记 (一)

【深度学习：入门】如何配置CUDA,使用gpu本地训练

CUDA（一）—基础知识

cuda基本知识（一）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)