AI快车道-MLPerf Training v2.0榜单发布 同等GPU配置,百度飞桨性能“世界第一”背后的黑科技揭秘

介绍
在这里插入图片描述
目录
在这里插入图片描述
发展历程

在这里插入图片描述
全景图,开发、训练、推理部署
在这里插入图片描述
核心技术
在这里插入图片描述
数据和模型和硬件的组合,自动优化
在这里插入图片描述
调整和优化方案
在这里插入图片描述
自动调优
在这里插入图片描述
全流程评价
在这里插入图片描述
评测标准和机构
在这里插入图片描述
介绍
在这里插入图片描述
介绍,训练推理性能基准测试
在这里插入图片描述
性能
在这里插入图片描述
规则
在这里插入图片描述
测试结果
在这里插入图片描述
基准
在这里插入图片描述
成绩表现
在这里插入图片描述
硬件合作厂商
在这里插入图片描述
端到端的性能优化,在哪里优化,就是在整个流程
在这里插入图片描述
各个模块的优化
在这里插入图片描述
变成输入的优化,直接padding浪费资源
在这里插入图片描述
挑战
在这里插入图片描述
优化点
在这里插入图片描述
分组运算,并行
在这里插入图片描述
负载不均
在这里插入图片描述
在这里插入图片描述
数据预处理和模型训练并行,尽量在CPU上做数据处理,GPU只是模型训练
在这里插入图片描述
算子性能
在这里插入图片描述
算子优化
在这里插入图片描述
在这里插入图片描述
全连接层优化,减小kernel的调用
在这里插入图片描述
在这里插入图片描述
融合
在这里插入图片描述
并行策略
在这里插入图片描述
混合并行优化器
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
拷贝,调度问题
在这里插入图片描述
学习率直接放在GPU
在这里插入图片描述
提升效果
在这里插入图片描述
优化简介
在这里插入图片描述
总结
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_15821487/article/details/125709499
今日推荐