1、介绍
目录
纵向,硬件和开发中,横向,学术界和产业界
历史
产业落地和开发者来优化
2、深入理解
最关心的问题
对应
2.0可用性
动静结合,基础和高层API
tensor计算
组网便捷
高层组网
基础和高层的融合
动态图模式
编程范式演变,cuda、静态图、动态图
动静转换
控制流对比
开发效率高,部署效率低,静态图提前组网,优化网络结构
动静转换
模型保存和加载,动态图代码构建网络结构,静态图可以直接保存网络结构
开发推理流程
2.1分布式训练
挑战
大规模分布式训练
数据并行,张量模型并行-把张量的参数分布下去,流水线并行-网络结构拆分,分组参数并行在模型并行的基础上切的更细
集合通信和参数服务器,去中心和有中心
如何配置分布式训练
集合通信跟更简单
组合并行训练,文心大模型
2.2硬件匹配移植方便
硬件生态,CPU,GPU训练,GPU推理(服务端,移动端,网页端),FPGU
硬件测试适配架构图
部署优势
2.4更新迭代方便,算法模型库完整
3、算子开发
算子编写,前向反向
写完算子对齐后,进行编译
使用自定义的算子
QA:
明确框架的底层的原理和思想