LZ真的是拖延症患者，12月分参会，总结倒是word里早就写好了，就是博客一直拖着，想想最近做的东西，怕是又要特意准备个周末，补写博客了。。。

下面就是对几个印象深刻的topic进行一些关键词的总结，因为对GPU编程是属于小白系列，平常也就弄弄算法，对于框架的设计也是很少涉及，所以也就听个大概，以后如果有这方面的需求，好歹知道从什么方向入手吧！

主题演讲：黄仁勋

之前可能显卡对于我们来说就是玩游戏用的，或者说只要用作三维渲染等，随着神经网络的应用，深度学习技术的发展，GPU越来越普遍的被各个公司、学校使用。
NVIDIA创始人兼CEO黄仁勋在演讲中将焦点放在四大主题：人工智能（AI）、自动驾驶、游戏和HPC。：

1. 人工智能：

随着深度学习不断挖掘，NVIDIA在5年左右的时间内将训练性能提高了300倍以上，借助Volta、Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink、DGX系统，AI加速变得更快。事实上NVIDIA AI已经影响到了各行各业，它出现在运输、医疗、金融、零售中，NVIDIA也不断为每种场景打造不同的平台，例如用于深度学习训练的DGX，用于超大规模云的HGX，用于边缘计算的EGX，用于自治系统的AGX。

2. 游戏方面：

在NVIDIA GeForce RTX平台上使用实时光线追踪，以改进即将推出游戏的画面质量和光照效果。进一步壮大了光线追踪在全球整个行业的影响力。热门游戏、全新系列、AAA大作和独立游戏均加入实时光线追踪，为其引入超逼真的光照模式。NVIDIA 游戏业务高级副总裁Jeff Fisher表示: “全球顶级的游戏开发者们正积极使用光线追踪技术，并已初见成效。在整个行业的支持下，基于GeForce RTX平台的光线追踪是游戏开发的未来。”

3. 自动驾驶：

NVIDIA发布NVIDIA DRIVE AGX Orin，它是新一代自动驾驶和机器人处理器SoC，达到了ISO 26262 ASIL-D等系统安全标准，将包含一系列基于单一架构的配置，计划于2022年开始投产。Orin被用于处理多个高速传感器、感知环境、创建一个周围环境的模型并定义自己、根据特定目标制定合适的行动策略。它使用了包含8个核心的64位Arm Hercules CPU，有170亿个晶体管，再加上全新深度学习和计算机视觉加速器，其性能达到200TOPS，几乎比上一代的技术（Xavier）提升7倍。它拥有易编程性，有丰富工具和软件库支持，还拥有全新功能安全特性，可使CPU和GPU锁步运行和提升容错性。

4. HPC：

NVIDIA在HPC方面的应用也很丰富。比如计划2030年将人类送上火星的NASA，在NVIDIA GPU上通过FUN3D流体力学软件运行了数十万次火星着陆场景模拟，生成150TB 的数据。

最后印象很深的一句话：The more you buy，The more you save！

从框架到平台，AWS的深度学习实践

1. 从算法人员角度进行的一系列操作：

a. 首先平台提供notebook，提供代码编辑界面；
b. 训练&调优：包含基本的深度学习方法，SageMaker Python SDK, 深度学习框架，分布式训练，CUDA，数据加速和日志打印功能；

2．使用Horovod:

a. 安装horovod和相关的软件包；
b. 修改现有的模型训练代码，以便使用horovod进行训练；
c. 使用Horovod mpirun命令运行多GPU或分布式训练；

基于GPU的AI计算优化方法及案例：从训练到推理

1. AI计算面临的挑战：

a. AI计算架构：芯片间异构与芯片内异构；
b. AI计算规模：K级节点，10K级GPU卡；
c. AI计算环境：不同用户、不同算法、不同框架、不同GPU卡；

2. 基于GPU的AI计算优化方法：

a. AI应用特征分析（计算特征、访存特征、通信特征、IO特征）；
b. GPU平台优化（计算优化、存储优化、网络优化）；
c. GPU系统管理优化（资源管理、资源调度）；
d. AI计算框架GPU优化（数据模型划分、单机优化算法、不同通信机制、数据模型聚合）；
e. AI应用GPU优化（训练性能优化、训练扩展优化、推理吞吐优化、推理延时优化）；

3. AutoML技术：

采用自动化地方式和程式化的手段，根据开发任务自主地实现模型构建、筛选的技术（浪潮使用的是horovod）；

腾讯如何构建AI+游戏强化学习平台

1. 主要针对的是MOBA（Multiplayer Online Battle Arena）类游戏：

例如王者荣耀等，相比较围棋来说，复杂度很高，Multi-agent（5v5协作），Sparse and delayed reward（每局对局20000+帧），非完备信息（局部视野）。

2. 提供强大的算力是关键：

a. 大规模算力挖掘（CPU虚拟化、GPU虚拟化）；
b. 并行强化框架（off-policy PPO改进算法）；
c. 训练加速（通信优化、IO优化、GPU推理加速）；

开发者论坛：

1. 阿里云服务器的使用

2. 深度学习发展的三个方向：

a. 新算法（新问题、新模型、新数据集）；
b. 新实现（新优化方法、新硬件、新框架、新工具）；
c. 新应用（互联网>非互联网，工业、农业、金融、科研、教育等）；

3. PAI-Blade通用推理优化框架：

模型结构分析–(计算图优化、Op fusion Engine、 DL compiler Proxy、模型压缩优化）–TensorRT Customized Optimizer、Blade Graph Optimizer、TAO Complier(XLA)、TVM；

EGX计算平台将人工智能推向边缘

NVIDIA EGX 平台包括一系列可扩展的NGC-Ready for Edge 验证服务器：从智慧城市中用于处理交通摄像头的 Jetson Nano，到在零售商店里屋中安装了 NVIDIA GPU 的单个边缘服务器，再到构成一个电信运营微数据中心的全套服务器，不一而足。无论是哪种外形尺寸，NVIDIA EGX 堆栈都全面兼容，让企业能够快速高效地将边缘操作从摄像头和设备扩展到远程大规模数据中心。

飞桨相关系列专题：

公开课上，百度工程师逐一介绍了飞桨的优势及新特性，并针对到场的企业开发者介绍了PaddleDetection、Paddleslim、ERNIE和EasyDL等快速上手的开发模块、模型。飞桨以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体，是中国首个也是目前国内唯一开源开放、功能完备的产业级深度学习平台。

AI助力未来XR的用户体验

1. 2020年VR趋势：

a. 6/6 DoF 成为新的AIO 标准；
b. 自然的用户界面将被广泛集成（眼睛、手、声音）；
c. PC到AIO流式传输为cloudVR奠定了基础；
d. 5G对VR的影响将在2020年受到限制；
e. AAA内容推动了新的消费者需求；
f. B2B的采用在全球范围内推动了新的发展；
g. AR功能将与VR设备合并；

期间还针对自己项目的问题，询问了一位专家，一开始并不认识，后来发现原来是NVIDIA的高级专家季光，期间问了很多实际的问题，我就叫老师吧，季老师能够很详细的耐心的讲给我这个小白听，再次感谢!

Felaim

发布了300 篇原创文章 · 获赞 203 · 访问量 59万+

他的留言板关注

GTC2019大会的部分总结