Como projetar uma infraestrutura de modelo grande do zero

Este artigo foi compilado com base em experiências de aprendizado recentes. Ele explica principalmente como projetar um grande modelo de infraestrutura de TI. O conteúdo do artigo será mantido no nível dos métodos de estrutura e tentará evitar o problema de escopo restrito causado pela vinculação de detalhes específicos.

um. Avaliação preliminar

       Em primeiro lugar, antes de iniciar o projeto, é necessário ter clareza sobre o propósito de construir um grande modelo privatizado, ter uma estimativa clara do tempo e do custo que pode ser investido e garantir que não haja falhas óbvias na avaliação de viabilidade.

       Algum bom senso básico precisa ser reiterado antes de projetar, como segue:

  1. A construção de um grande modelo requer três fatores de produção, infraestrutura de TI, modelos de algoritmos e dados, bem como pessoal técnico correspondente.
  2. Os recursos de cluster de computação baseados em GPU não são apenas caros, mas também escassos. A estimativa mais conservadora é que esta situação não mudará antes do final de 2023. Pessoalmente, acho que é uma estimativa mais confiável de que não haverá grandes mudanças antes do primeiro semestre de 2024. Você precisa superar dificuldades para aumentar os recursos da placa GPU (devido à lacuna de capacidade entre a memória de vídeo e a latência da largura de banda de comunicação, o H100 ainda é o mais adequado para treinamento de modelos grandes, e o 4090 só pode ser usado para inferência)
  3. O período de tempo para a coleta inicial e o pré-processamento de dados, bem como para o treinamento e o ajuste fino posteriores, geralmente é medido em meses. É difícil concluir todo o processo em poucas semanas. Você deve estar mentalmente preparado para a avaliação do ciclo do projeto.
  4. Embora os grandes modelos tenham demonstrado capacidades surpreendentes, os grandes modelos privatizados são geralmente aplicados a indústrias verticais, e os resultados iniciais podem variar, dependendo da qualidade dos dados, das características da indústria e das expectativas do projeto.

Depois que as informações básicas acima estiverem claras e corretas, você precisará reavaliar se as condições de inicialização foram atendidas.Se houver boas respostas ou soluções para as perguntas acima, você poderá entrar no estágio de design.

dois. processo geral de design

Dividido em três etapas: seleção do modelo, treinamento em escala e implantação da adaptação

1. Encontre rapidamente o modelo mais adequado na menor escala

Existem muitos modelos de código aberto disponíveis agora, mas para suas necessidades específicas de aplicação, deve haver modelos adequados e inadequados. Nesta etapa, você precisa encontrar o modelo ideal. Como avaliar o melhor? De modo geral, o resultado final do treinamento de grandes modelos é "uma ferramenta auxiliar que pode completar certas tarefas". Copiloto, copiloto e assistente digital são descrições muito vívidas. A qualidade da avaliação depende principalmente desta ferramenta. Precisão.

A indústria usa outro termo “Pesquisa de hiperparâmetros” para descrever o processo de localização de um modelo. Há uma imagem muito vívida em um dos materiais públicos da Lambda. Vou pegá-la emprestada aqui.

Os chamados hiperparâmetros são parâmetros predefinidos antes do início do processo de aprendizado de máquina. Os hiperparâmetros típicos incluem taxa de aprendizagem , tamanho do lote batch_size , número de iterações Época , coeficientes de regularização que afetam a capacidade de generalização do modelo e a estrutura do neural rede. Parâmetro número de camadas, número de neurônios, tamanho do kernel de convolução, etc. Diferentes configurações de hiperparâmetros são adicionadas para determinar basicamente o modelo específico. Normalmente, precisamos ajustar e otimizar hiperparâmetros e selecionar um conjunto de hiperparâmetros ideais para melhorar o desempenho e o efeito do aprendizado de máquina e obter o modelo ideal. Na prática, o ajuste de hiperparâmetros geralmente usa a configuração manual da faixa de ajuste e, em seguida, usa uma máquina para pesquisar dentro da faixa de hiperparâmetros. Esse processo é chamado de pesquisa de hiperparâmetros. Os métodos básicos comuns de pesquisa de hiperparâmetros geralmente incluem pesquisa de rede GridSearch, pesquisa aleatória RandomizedSearch ou amostragem de hipercubo latino, hipercubo latino, etc.

Hiperparâmetros são essencialmente parâmetros de parâmetros. A configuração manual é necessária. Cada vez que os hiperparâmetros são alterados e ajustados, o modelo deve ser treinado novamente e, em seguida, o trabalho de verificação e avaliação correspondente deve ser feito. Um ciclo de rodada pode variar de algumas horas a duas ou duas horas. três dias. A escala de hardware da configuração neste momento também pode ser relativamente pequena, e você pode até começar com um laptop para jogos com GPU, mas o período de tempo pode ser mais longo.Se houver três servidores GPU, o período de pesquisa será bastante reduzido . Afinal, o poder da computação determina o tempo

E pela garantia de recursos, você também pode considerar rodar diferentes modelos em paralelo em cada servidor, para produzir resultados com mais rapidez.

2. Aumente a escala do projeto, treine e ajuste conforme necessário

Depois de encontrar o modelo mais adequado, é hora de “levar a sério” e aumentá-lo. Quanto à expansão para dezenas de servidores ou dezenas de milhares, isso depende das expectativas de design e do orçamento e do planejamento de recursos de hardware.

Acho que você gosta

Origin blog.csdn.net/m0_61289673/article/details/133530185
Recomendado
Clasificación