논문 검토 : RESOURCE 탄력 깊은 학습 DISTRIBUTED

1. 소개

  공급 측면에서는 현재 학습 리소스를 배포에서 수동으로 설정하기 전에 유사한 작업을 기반으로하지만, 부하의 첫 번째 실행을위한 유일한 시행 착오 자원의 최적 배분을 찾을 수 있습니다.

  그러나 시행 착오의 비용은 사전에 작업 특성의 크기를 알고 현재 작업의 요구에 할당되는 자원의 양을 각 라운드 반복 재건도 몇 분을 소비하고 결정하는 매우 높다.

  이제 자원 할당 정책을 통해 할당되며,이 두 가지가 잘되지 않습니다 : 첫째, 자원의 낭비 만 비용이 많이 드는 아니지만, 물리적 자원을 더 효율적으로 사용할 수는 없다, 둘째, 과잉 할당이 해결할 수없는 낙오자의
가있는 경우이며, 문제를, 기계의 분산 효율로 인해 대만 비효율적 인 기계, 결정을 마무리하는 것입니다, 따라서 전체 클러스터 현상 아래로 개별 기계의 존재.

1.1 주요 과제

  직면하게되는 문제점 

  현재 사용자 습관 자원 할당은 TensorFlow 및 PyTorch 같은 분산 학습 시스템의 주류에 따라 달라집니다.

  TensorFlow 클러스터 크기는 좋은 시작을 설정하고, 훈련 시작 후 변화는 동적하지 않다, 동적으로 변화 자원 PyTorch 주로 입력과 운영에 반영.

  라이프 사이클 내에서 작업 자원 할당을 기존 여전히 동일하지만, 기존 시스템의 동적 변화에 따라 자원에 대한 수요의 얼굴에 이러한 요구의 좋은 확장을 제공하기 어렵다.

  도전 2

  배치 크기 증가에 훈련 리드 아웃 간단한 스케일링, 모델의 융합의 영향 (상세 참조 블로그 간단히 말해서), 대형 배치 크기 훈련을 쉽게 수렴 sharpminmum, 훈련 및 소그룹 크기는 평평한 최소로 수렴됩니다

1.2  분산 학습을위한 자동 확장 엔진  

  자원 할당 프로세스를 변경할 수 있습니다 자동 스케일링 엔진의이 디자인은, 우리는 유휴 시간을 최소화하기 위해, 기존의 시스템 프로세스 및 메모리에 저장하는 모든 국가 관련 프로그램을 재사용

  동시에 위의 아이디어를 고려에,이 기여를 다음과 같은 :

  구조적 수준 스케일링 시스템 자원 제한에서 현재 고급 분산 학습 시스템 1. 설명

  2. 디자인 계정 비용과 처리에 소요 분산 학습 발견 줌 전략,

  3. 분산 학습 엔진 낙오자의 문제를 해결하기 위해 자원의 첫 번째없는 이상 할당입니다

2. 배경

 

추천

출처www.cnblogs.com/o-din/p/12634855.html