2022 年的 AI 开发工具和大模型演进丨XDC 2022

GPT-3 的出世引发了 AI 大模型的热潮，两年过去了，产业界是否驯服了大模型？大模型又是否具备了成为 AI 基础设施和商业模式的潜力？事实上，GPT-3系统的流畅程度对很多人来说是一个巨大的飞跃，但它仍然存在一些问题，它可以编写与人类极度相似的文字，写一部引人入胜的超现实主义小说，但却无法保证语言的准确性——它的输出符合语法，却让人无法理解。

大模型在近两年来已经应用到了许多场景，它可以提供计算服务，进行写作、创新点子、面试题、商标等多个内容的辅助生成，在中低速应用场景中也有不错的表现。但是，在高速、高并发的应用场景中，大模型还有许多技术难点需要突破。

当我们将视野转向底层的AI开发工具，会发现那些备受关注的深度学习框架也有很多进展。transformer高速发展，在视觉任务领域的适用性已经被证明，在音频文本序列任务也基本革了RNN的命，成为了NLP、CV、ASR等领域的主流模型。由各厂商优化的工具、开源 AI 框架等也将端与端的高性能AI应用进一步优化。未来，不论是AI开发工具还是大模型还会进一步发展，应用到更多场景，实现更多突破。

在7月22、23日即将举办的2022稀土开发者大会上，由北京一流科技有限公司创始人袁进辉（老师木）作为出品人的《AI开发工具和大模型推进》专场，将邀请产业界的 AI 专家，破疑解惑，寻找真正的技术价值。本届开发者大会免费报名中，点击链接或识别海报二维码即可与各位牛人分享交流。

演讲主题：如何利用 Intel 加速工具构建端到端的高性能应用

介绍 Intel AI 方案及软件生态，并分享如何利用 Intel 优化的 Python 工具、开源 AI 框架等优化端到端的高性能 AI 应用。

演讲大纲：

Intel 的 AI 加速计算平台
面向 AI 开发者的 Intel AI 软件工具加速数据、模型和部署
高性能应用的端到端 AI 应用实例

演讲嘉宾：

夏磊英特尔人工智能首席工程师、首席架构师

现负责支持中国数据中心客户，在 IA 架构上利用 Intel 最新硬件加速方案进行 AI 领域的技术合作。长期支持各行业，利用人工智能、视觉计算、传感器等领域技术进行应用创新。

演讲主题：Transformer 系列模型量化训练与推理

Transformer 系列模型已经成为了 NLP、CV、ASR 等领域的主流模型，因此如何更快地训练和推理 Transformer 模型成为业界研究的一个重要问题。低精度量化技术通过降低数据的位宽来大大加速计算和通信过程，因此成为了训练推理加速的一个重要手段。但与此同时，量化会造成精度和效果上的损失，需要通过量化感知训练等手段来减轻损失。业界目前还没有一款工具，可以同时实现 Transformer 模型的量化训练、量化推理和精度无损。因此 LightSeq 针对这些重难点进行了研究，首次在业界实现了全套功能。具体实践上，LightSeq 通过 int8 GEMM 实现了真量化训练过程，而不是业界广泛使用的伪量化方法，因此训练速度提升了 10 倍以上。而通过 PACT 等量化策略，可以将量化训练的损失减小到最低。在将量化模型导出为 LightSeq 支持的格式之后，可以进一步使用 LightSeq 量化推理引擎实现快速推理，在 T4 显卡上提速最高 70%。LightSeq 开箱即用，支持 Transformer、BERT、GPT 等多种模型的量化全流程，提供了丰富、多层级的 API 和使用示例。

演讲大纲：

Transformer 和量化背景介绍
量化感知训练技术
- 量化位置
- 训练策略
- 显存管理
量化推理技术
- 算子融合
- 显存管理
性能分析
系统架构及使用示例

演讲嘉宾：

韦阳字节跳动 AI Lab NLP 算法工程师

主要研究机器翻译、模型优化方向，是模型训练推理加速项目 LightSeq 的核心开发者之一。

演讲主题：源1.0大模型及开源开放进展

将从业界现状、源1.0大模型创新与实践、应用落地等角度，讲述源1.0大模型及开源开放的进展。在数据上，将结合“源1.0”海量数据处理平台，讲述如何对 2017 至 2021 年间 866TB 互联网海量数据进行清洗并获得 5TB 大规模高质量中文数据集。在算法上，将结合“源1.0”讲述大模型算法实践的技巧，及如何在 2128 颗 GPU 集群上取得业界领先的训练性能。在应用上，将结合“源1.0”大模型的开源开放计划，讲述源1.0在写作、对话、虚拟人等领域的应用情况，探讨大模型的落地。

演讲大纲：

业界现状分析
源1.0创新及实践
源1.0应用落地

演讲嘉宾：

吴韶华浪潮信息 AI 软件研发总监

研究方向为人工智能与分布式计算，带领团队研发了 2457 亿参数的“源1.0”大模型。当前致力于认知理论及方法、大规模分布式训练等方向研究。

演讲主题：Vertex AI 助力大模型搜索和训练

预训练大模型已经成为 AI 应用落地的新范式，但大模型对数据、算力和算法都提出了新的挑战。Google 在应用、算力、算法及 AI 开发工具上大手笔动作不断：基于多模态的图文搜索 MultiSearch，基于 TPUv4 超强算力世界最大的 ML Hub，帮助搜索更好模型的 Vertex NAS ，一站式的 AI 训练和推理工具集 Vertex AI 等等。

演讲大纲：

AI 前沿新范式: 万亿参数级预训练大模型
Vertex NAS 搜索下一个 SOTA 网络结构
9 ExaFlops 世界最大公开可用 ML Hub
Google Cloud TPU/GPU 分布式训练实践

演讲嘉宾：

王顺 Google Cloud AI/ML 专家

协助和赋能中国出海企业客户在 Google Cloud 上进行 AI/ML 相关业务的实践，包括在 TPU/GPU 上进行超大规模深度学习模型的分布式训练；部署端到端的一站式机器学习训练平台和 MLOps 最新实践；CV、NLP、Speech、多模态模型生产部署，A/B 测试和性能优化；定制化解决方案的协作开发，比如电商推荐系统、基于图文等多模态模型训练等。在加入 Google Cloud 之前曾在人工智能初创公司旷视负责及参与多项 AI 技术在企业落地，包括人脸识别、证件 OCR、淘咖啡无人店等项目。

演讲主题：PPL：高性能推理在车载智能场景下的应用与实践

推理引擎作为连接算法模型与产品落地的部署平台核心组件，是 AI 大装置赋能百业的重要一环。商汤 PPL 是国内最早的自研推理引擎之一，目前服务于安防、金融、手机、娱乐互联网、智能硬件和智能驾驶等多个 AI 重点赋能领域。本次演讲将分享商汤 HPC 团队对于推理部署的技术思考和性能优化经验，并以车载智能案例为例，讲述如何协同业务团队，在不同硬件平台上进行适配，并完成端到端的推理优化提升。最后，本次演讲也将分享 PPL 的进一步开源计划，与开发者共同探讨 AI 部署的挑战与未来，助力国产 AI 生态的繁荣。

商汤自研高性能推理引擎 PPL 的发展与演进
PPL 性能优化经验分享
- 硬件架构特性分析
- 基于 Arithmetic Intensity，探索优化方向
- 基于微架构的指令集调优
PPL 落地实践
- 绝影智能车舱
- 车载智能部署的难点与思考
- 基于 PPL 的高性能车载解决方案
- 硬件适配，通用平台全场景加速
社区开源计划：OpenPPL
PPL 的挑战与未来规划

演讲嘉宾：

许志耿商汤科技高级系统研究员

商汤科技高级系统研究员，推理引擎 PPL CPU 与加速器方向负责人。本硕毕业于上海交通大学计算机系，研究方向为高性能计算。曾参与神威·太湖之光超级计算机上的科学计算核心深度优化；建立了 AI 加速器上的商汤自研推理引擎。在 PARCO、IPDPS、ICPP 等国际会议和期刊上发表过多篇论文。目前在商汤科技高性能计算与推理部门负责 CPU、DSP 和 NPU 等架构方向的推理引擎研发与业务落地。

本届大会策划的专题除AI开发工具与大模型演进以外，还包括了开源和商业化探索、大前端、低代码、业务背后的架构演进、微服务和Serverless、云原生技术架构和变革等十数个技术专场，由来自字节、阿里、腾讯、快手等公司具备技术影响力与洞察力的行业专家负责议题把控，目前大会出品人已全部集齐，讲师阵容即将确认完毕。除了为期两天的沉浸式内容体验，稀土开发者大会还为万千开发者朋友们准备了丰厚的奖品，报名参会的开发者将有机会参与抽奖，赢取丰厚大奖，敬请期待。