1. Introdução

　　Do lado da oferta está distribuída recursos de aprendizagem, são baseados em tarefas semelhantes antes conjunto manualmente, mas para a primeira corrida da carga, a única tentativa e erro para encontrar a alocação ótima de recursos.

　　Mas o custo de tentativa e erro é muito alta, para passar alguns minutos cada diagrama reconstrução iterativa rodada, e determinar a quantidade de recursos alocados para as necessidades atuais do trabalho de saber o tamanho das características do trabalho com antecedência.

　　Então, agora a política de alocação de recursos é over-alocado, isso não é bom, existem duas: Primeiro, o desperdício de recursos, não só caro, mas não há uma utilização eficiente dos recursos físicos, em segundo lugar, o excesso de alocação não pode resolver o retardatários
problema, ou seja, se houver um máquina ineficiente Taiwan, devido à eficiência de distribuição da máquina é finalizar a decisão, por conseguinte, a presença de máquinas individuais para baixo de todo o fenómeno de cluster.

1.1 Principais desafios

　　Um desafio

　　A alocação de recursos hábitos do usuário atual depende da corrente de sistemas de aprendizagem distribuídos, tais como TensorFlow e PyTorch.

　　tamanho do cluster TensorFlow é definido em um bom começo, e depois do início do treinamento não é dinamicamente mudança, mudança dinamicamente PyTorch de recursos reflecte-se principalmente sobre a entrada e operação.

　　Existente alocação de recursos trabalho dentro de seu ciclo de vida ainda é o mesmo, mas em face da forte demanda por recursos sob as mudanças dinâmicas no sistema existente é difícil fornecer uma boa expansão de tais necessidades.

　　Challenge 2

　　dimensionamento simples fora leads de treinamento para aumentos de tamanho de lote, o impacto da convergência do modelo (consulte detalhada do blog ) Simplificando, grande formação tamanho do lote sharpminmum facilmente convergem, formação e tamanhos pequenos grupos convergirão para um mínimo plana

1.2 motor Autoscaling para a aprendizagem distribuída　　

　　Este projeto do motor dimensionamento automático pode alterar o processo de alocação de recursos, que reutilizar os processos do sistema existentes e armazena todos os programas estaduais relevantes na memória, a fim de minimizar o tempo ocioso

　　Em consideração das idéias acima, ao mesmo tempo, as contribuições seguintes:

　　1. Descrição do atual sistema de aprendizagem distribuído avançado nos limites de recursos do sistema de escala de nível estrutural

　　2. Criar uma estratégia de zoom heurística aprendizagem distribuída, que leva em conta o custo e rendimento

　　3. é a alocação over-primeiro não de recursos para resolver o problema do vagabundo motor de aprendizagem distribuída

Artigos de revisão: RECURSO elasticidade DISTRIBUÍDO PROFUNDA APRENDIZAGEM

1. Introdução

1.1 Principais desafios

Um desafio

Challenge 2

1.2 motor Autoscaling para a aprendizagem distribuída

2. Antecedentes

Acho que você gosta