Paddle 0.13.0 发布,百度开源的深度学习平台

  

Paddle 0.13.0 已发布,PaddlePaddle (PArallel Distributed Deep LEarning 并行分布式深度学习)是百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持。

支持的特性

- 易用性:为用户提供了直观且灵活的数据接口和模型定义接口
- 灵活性:PaddlePaddle支持多种神经网络结构和优化算法。简单书写配置文件即可实现复杂模型,如带注意力机制或复杂记忆连接的神经机器翻译模型
- 高效性:为充分发挥多种计算资源的效力,PaddlePaddle在计算、存储、架构、通信等多方面都做了细致优化,性能优异
- 可伸缩性:PaddlePaddle全面支持多核、多GPU、多机环境,优化的通信实现使高吞吐与高性能成为可能,轻松应对大规模数据训练需求

本次更新的内容包括:添加新特性、提升性能以及修复 bug。

主要特性

  • 支持异步分布式训练

  • 使用 ParallelExecutor 进行分布式训练

  • 使用 NCCL2 进行分布式环型培训

  • 支持将 checkpoint 保存在训练器以及存储在训练器和参数服务器上

  • 参数服务器的优雅关闭

  • 发布高级的 inference lib API 和 inference 实现

  • 为每个操作分配角色

  • 发布 C++ 训练 API 以允许将流体嵌入到其他 C++ 系统中

  • 支持 uint8_t 类型的数据文件和数据交换

  • C++ 阅读器支持定制数据的增长

  • 改进了语音模型的操作器和界面支持

  • 新的 random_crop op

  • 新的 shape op以获取张量(tensor)的形状

  • 新的 resize_bilinear interface.

  • 新的 dice_loss layer.

  • 增强 reduce_op 以支持在多维度上的削减

性能提升

在 P40 GPU ResNet-50 模型上,单个 GPU 速度提升了 23.8% (105 images/sec to 130 images/sec)。8 个 GPU 的加速比达到 6,32 个 GPU 的加速比达到 17.4。

  • Overlap send/recv op with other operators.

  • Multi-thread server-side request handling.

  • Weight decay and clipping moved from trainer to parameter server for performance and correctness.

  • Improved C++ reader.

主要的 bug 修复

  • Fix accuracy loss when both ParallelExecutor and memory optimizer are used.

  • Fix ParallelExecutor hang when multiple inputs duplicate.

  • Fix Program clone cause memory leak.

  • Fix GRU unit bias ineffective and wrong activation.

  • Fix ROI Pooling GPU computation issues.

  • Fix fill_constant_batch_size_like when input is sequence.

  • Fix reshape op.

下载地址

猜你喜欢

转载自www.oschina.net/news/96968/paddle-v0-13-0-released