论文导读：RESOURCE ELASTICITY IN DISTRIBUTED DEEP LEARNING

其他 2020-04-04 23:01:07 阅读次数: 0

1 Introduction

　　目前分布式学习在资源供应方面，都是依据之前的相似任务进行手动设置，但是对于首次运行的负载而言，只能反复尝试以找到最优的资源配置。

　　但是反复试错的代价是十分高昂的，每一轮迭代都要花几分钟重建图，而且，确定分配给当前作业多少资源需要提前知道作业的规模特征。

　　所以现在的资源分配策略是过量分配，这样有两种不好：第一，资源的浪费，不仅是费用高，而且物理资源也没有高效利用；第二，过量分配无法解决stragglers
问题，即如果有一台低效机器，由于分布式的效率是由最后完成的机器决定的，因此，存在个别机器拖垮整个集群的现象。

1.1 Main challenges

　　挑战一

　　当前的用户资源分配习惯主要依赖于主流的分布式学习系统，如TensorFlow和PyTorch。

　　TensorFlow的集群规模是在一开始就设定好的，且训练开始后是无法动态变动；而PyTorch的资源动态变化主要体现在输入和操作上。

　　现有的作业资源分配在其生命周期内是静态不变的，而在面对强烈的资源动态变动需求下，现有的系统难以很好的提供此类需求的扩展。

　　挑战二

　　简单的scaling out导致训练的批尺寸增大，影响模型的收敛性（详细参照博客）简单来说，就是大批尺寸的训练容易收敛成sharpminmum，而小批尺寸训练会收敛成flat minimum

1.2 Autoscaling engine for distributed learning 　　

　　本文设计的自动缩放引擎可在资源分配的变化过程中，我们的系统重用现有的进程，并将所有相关的程序状态保存在内存中，以最小化空闲时间

　　在考虑上述思想的同时，有以下贡献：

　　1.描述了当前先进的分布式学习系统在体系结构层面上对资源缩放的限制

　　2.设计了分布式学习的启发式缩放策略，其中考虑了吞吐和代价

扫描二维码关注公众号，回复： 10485206 查看本文章

　　3.是第一个无需过量分配资源解决了straggler问题的分布式学习引擎

2. BackGround

猜你喜欢

转载自www.cnblogs.com/o-din/p/12634855.html

论文导读：RESOURCE ELASTICITY IN DISTRIBUTED DEEP LEARNING

Elephas: Distributed Deep Learning with Keras & Spark

Fast Distributed Deep Learning on RDMA阅读笔记

【译】Distributed Deep Learning - Part 1 - An Introduction

Large Scale Distributed Deep Learning using Kubernetes

RL+RA 文献Multi-Agent Deep Reinforcement Learning for Enhancement of Distributed Resource Allocation

【论文学习8】TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning

Distributed Deep Learning Training and Inference Using Apache Spark

TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning

CoRR 2018 | Horovod: Fast and Easy Distributed Deep Learning in Tensorflow

如何解决ASGD中的“STALENESS“？Staleness-aware Async-SGD for Distributed Deep Learning给你一个解论文精读

分布式机器学习的地域性问题怎么解决？ DLion: Decentralized Distributed Deep Learning in Micro-Clouds 论文精读

Deep learning 论文笔记

【论文阅读】SketchML: Accelerating Distributed Machine Learning with Data Sketches

ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network

论文笔记(1)：Deep Learning.

论文阅读：《Wide & Deep Learning for Recommender Systems》

【论文精读】Deep Learning and the Information Bottleneck Principle

Playing Atari with Deep Reinforcement Learning论文解读

论文阅读: Wide & Deep Learning for Recommender Systems

《Wide & Deep Learning for Recommender Systems》论文总结

读论文：Deep Neural Networks with Multitask Learning

论文-Deep Residual Learning for Image Recognition

《Deep Learning of Graph Matching》论文阅读

Deep Learning: A Critical Appraisal 论文笔记

论文学习之综述：《Deep learning》

Wide & Deep Learning for Recommender Systems【论文记录】

AMiner推荐论文：A Survey on Green Deep Learning

Deep Learning

ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)