Como construir uma plataforma eficiente de treinamento de modelos grandes de computação de alto desempenho na era SAM

Palavras-chave: SAM; PCB; SA-1B; Prompt; CV; PNL; PLM; BERT; ZSL; tarefa; disparo zero; dados; H100, H800, A100, A800, LLaMA, Transformer, OpenAI, GQA, RMSNorm, SFT, RTX 4090, A6000, AIGC, CHATGLM, LLVM, LLMs, GLM, NLP, AGI, HPC, GPU, CPU, CPU+GPU, NVIDIA, Nvidia, Intel, AMD, computação de alto desempenho, servidor de alto desempenho, cérebro oceano azul , poder de computação heterogêneo múltiplo, computação de alto desempenho, treinamento de modelos grandes, inteligência artificial geral, servidor GPU, cluster de GPU, cluster de GPU de treinamento de modelos grandes, modelo de linguagem grande, aprendizado profundo, aprendizado de máquina, visão computacional, IA generativa, ML, DLC , ChatGPT, segmentação de imagem, modelo de linguagem pré-treinado, PLM, visão de máquina, servidor de IA

Resumo: Segment Anything Model (SAM) é um modelo inovador de IA lançado recentemente pela Meta Company, que é especialmente utilizado para tarefas de segmentação de imagens na área de visão computacional. Com base no paradigma de aprendizagem do ChatGPT, o pré-treinamento e tarefas específicas são combinados para melhorar significativamente a capacidade de generalização do modelo. O SAM foi projetado para simplificar o processo de segmentação de imagens, reduzir a dependência de conhecimento profissional de modelagem e reduzir os recursos computacionais necessários para treinamento em larga escala.

No campo da visão computacional, o modelo SAM é um ChatGPT baseado no campo CV, que oferece poderosas funções de segmentação de imagens. No entanto, para usar o modelo SAM, precisamos configurar o ambiente do modelo grande SAM. Embora a configuração de um ambiente SAM possa apresentar alguns desafios, uma vez concluída a configuração, poderemos aproveitar ao máximo o poder do modelo SAM.

Para configurar o ambiente SAM, precisamos garantir que o servidor tenha recursos computacionais e espaço de armazenamento suficientes para suportar a operação eficiente do modelo SAM. Os modelos SAM geralmente requerem grandes quantidades de recursos de computação e capacidades de armazenamento para segmentação precisa de imagens. No entanto, você também precisa prestar atenção ao impacto da implantação local do SAM no servidor. A implantação do modelo SAM pode ter certo impacto no desempenho e estabilidade do servidor.

A plataforma de treinamento de modelos grandes Blue Ocean Brain fornece clusters de computação poderosos, sistemas de armazenamento de alta velocidade e conexões de rede de alta largura de banda para acelerar o processo de treinamento do modelo; ao mesmo tempo, adota uma estrutura de computação distribuída eficiente e computação paralela, para que o treinamento do modelo possa ser realizado em vários nós de computação simultaneamente. Reduza bastante o tempo de treinamento. Possui funções como agendamento de tarefas, gerenciamento de recursos e monitoramento para melhorar a eficiência e a capacidade de gerenciamento do treinamento. Além disso, um rico conjunto de ferramentas e bibliotecas está disponível para desenvolvimento, depuração e otimização de modelos. Também é fornecido suporte para implantação e inferência de modelo. Assim que o treinamento do modelo for concluído, a plataforma poderá implantar o modelo treinado no ambiente de produção para uso prático do aplicativo.

Se a imagem não puder ser exibida, atualize a página

Modelo SAM: ChatGPT no campo CV


1. Qual é o modelo SAM?

O modelo SAM é um modelo de inteligência artificial lançado pela Meta, que é descrito no site oficial como “segmentar qualquer objeto em qualquer imagem com apenas um clique”. Usando modelos anteriores de segmentação de imagens como base e treinados em grandes conjuntos de dados, este modelo visa resolver múltiplas tarefas downstream e se tornar um modelo geral.

Os pontos centrais deste modelo são:

1. Aprenda com as ideias inspiradoras do ChatGPT, adote um paradigma de aprendizagem rápido e melhore a eficiência da aprendizagem;

2. Criar o maior conjunto de dados de segmentação de imagens até agora, Segment Anything 1-Billion (SA-1B), que contém 11 milhões de imagens e mais de 1 bilhão de máscaras;

3. Construir um modelo de segmentação geral e automático, que possa ser aplicado de forma flexível a novas tarefas e campos no caso de amostras zero, e os resultados sejam melhores do que os resultados de aprendizagem supervisionada anteriores.

IMG_257

Artigo oficial do modelo SAM

2. Solicitação: aplique o pensamento de aprendizagem do ChatGPT na área de currículo

O SAM utiliza rotas de tecnologia avançada para alcançar avanços na tecnologia de visão computacional subjacente e possui ampla versatilidade e recursos de migração sem amostra. O aprendizado baseado em prompts é usado para aprendizado e treinamento, ou seja, os prompts são usados ​​como entrada do modelo. Diferente dos métodos tradicionais de aprendizagem supervisionada, este método tem sido amplamente utilizado pela equipe GPT-3.

1. O que o modelo antes do Prompt está fazendo? 

O modelo de linguagem pré-treinado (PLM) é um modelo avançado de processamento de linguagem natural (PNL) que desempenha um papel importante na interação humano-computador. A PNL visa melhorar a comunicação e a compreensão entre humanos e computadores, e o PLM é um dos modelos de ponta neste campo.

Algoritmos e modelos comuns para processamento de linguagem natural (PNL)

Os modelos pré-treinados podem ser divididos em quatro gerações de acordo com o paradigma de aprendizagem e o estágio de desenvolvimento:

1) Aprendizagem de recursos: extraia o texto de codificação de recursos de texto definindo regras, como o modelo TF-IDF.

2) Aprendizagem estrutural: A aprendizagem profunda é introduzida e aplicada na PNL. O modelo representativo é o Word2Vec. O que os modelos pré-treinados de primeira e segunda geração têm em comum é que a saída é usada como entrada para tarefas posteriores, mas não executa diretamente as tarefas posteriores. Os modelos subsequentes aplicam os resultados do pré-treinamento e o próprio modelo às tarefas posteriores.

IMG_259

Etapas de desenvolvimento e características de modelos pré-treinados (PLM)

3) Ajuste fino downstream: São usados ​​pré-treinamento e ajuste fino downstream.Os modelos representativos incluem BERT e GPT.

4) Aprendizagem imediata: melhorada ainda mais com base no BERT e GPT, usando o método de aprendizagem baseada em prompt (Aprendizagem baseada em prompt). Este método processa as informações de entrada por meio de um modelo específico e transforma a tarefa em um formato mais adequado para o processamento do modelo de linguagem pré-treinado. Os modelos representativos incluem ChapGPT, GPT3.5 e SAM.

O modelo pré-treinado é como um graduado do ensino médio, enquanto as tarefas posteriores equivalem a cursos profissionalizantes na faculdade. Os graduados do ensino médio que estudam cursos relacionados a futuras áreas de aplicação podem se tornar estudantes universitários com habilidades e conhecimentos profissionais para atender aos requisitos de cargos profissionais.

IMG_260

Ramos da aprendizagem baseada em prompts

2. Vantagens do Prompt: Unificação de tarefas de pré-treinamento e posteriores

Como mostrado na figura abaixo (à esquerda), o paradigma tradicional de ajuste fino do PLM+ tem problemas de grandes diferenças entre upstream e downstream e incompatibilidade de aplicativos.No estágio de pré-treinamento, métodos autorregressivos ou de codificação automática são usados, mas para downstream fino -tarefas de ajuste, são necessários muitos dados novos para atender a diferentes formatos e requisitos.

IMG_261

Pré-treinamento tradicional + modelo de ajuste fino e paradigma imediato

À medida que os parâmetros do modelo se tornam cada vez maiores, o custo para as empresas implantarem modelos é muito alto. Ao mesmo tempo, para cumprir várias tarefas posteriores, cada tarefa precisa ser ajustada, o que também é um enorme desperdício. Existem basicamente duas desvantagens:

1) O número de amostras necessárias para o ajuste fino é muito grande

2) O modelo é altamente específico e o custo de implantação é alto

Em resposta às deficiências acima, a equipe PT-3 propôs que, depois de ler uma grande quantidade de texto não supervisionado, o modelo de linguagem possa resolver efetivamente o problema, "cultivando uma ampla gama de habilidades e capacidades de reconhecimento de padrões". Experimentos mostram que em um cenário de poucas amostras, o modelo pode alcançar bons resultados sem atualizar nenhum parâmetro. O paradigma de pré-treinamento mais ajuste fino é adaptar o modelo às tarefas posteriores por meio de treinamento extensivo. O Prompt, por outro lado, unifica as tarefas posteriores em tarefas de pré-treinamento na forma de modelos específicos, organiza os dados das tarefas posteriores em formato de linguagem natural e dá pleno uso aos recursos do próprio modelo de pré-treinamento.

IMG_262

A diferença entre paradigmas de ajuste fino e prompt

Tomando como exemplo a tarefa de classificação de emoções, o uso do método tradicional de ajuste fino requer a preparação de um conjunto de dados ajustado, que contém avaliações de filmes/livros e sentimentos após a leitura manual. O conjunto de dados de ajuste fino deve ser grande o suficiente para atender aos requisitos complexos da tarefa. No entanto, o tamanho do conjunto de dados de ajuste fino pode exceder o tamanho do conjunto de dados de pré-treinamento, fazendo com que o propósito do pré-treinamento perca o significado.

Por outro lado, o uso do Prompt pode lidar melhor com tarefas de classificação de emoções e fazer uso total dos recursos do modelo pré-treinado para evitar ajustes pesados ​​na preparação do conjunto de dados. O prompt pode gerar a previsão da palavra na posição MASK com base na frase de entrada e, em seguida, inferir a atitude do usuário em relação ao trabalho.

IMG_263

Pré-treinamento + ajuste fino de tarefas posteriores (PLM + ajuste fino) lida com tarefas de classificação de emoções (escrita de resenhas de filmes)

O paradigma imediato tem as seguintes vantagens:

1) Reduz bastante o número de amostras necessárias para o treinamento do modelo e pode ser treinado com poucas amostras ou até mesmo com zero amostras.

2) Melhorar a versatilidade do modelo, reduzir custos e melhorar a eficiência em aplicações práticas

Atualmente, grandes modelos como o GPT-4 não abrem mais todos os parâmetros do modelo e os usuários só podem usar o modelo para fazer previsões por meio da interface API. Pode-se perceber que a importância do projeto Prompt nas tarefas posteriores é evidente.

3. ZSL: O aprendizado de amostra zero reduz custos e aumenta a eficiência e melhora as capacidades de generalização do modelo

1. O que é capacidade de aprendizagem de amostra zero?

Zero-shot Learning (ZSL) é um problema difícil de aprendizado de máquina, cujo objetivo é permitir que o modelo classifique e reconheça “objetos desconhecidos” que nunca foram vistos. A imagem abaixo mostra um caso clássico de conhecimento de zebras. Uma “criança” já viu muitos animais no zoológico, como cavalos, pandas, leões, tigres, etc., mas nunca viu uma zebra. Pela descrição da professora, a “criança” aprendeu que as zebras têm quatro patas, listras pretas e brancas e cauda. Eventualmente, a “criança” identificou facilmente a zebra.

Da mesma forma, o modelo também pode usar o aprendizado zero-shot para extrair características de categorias que viu (como parecer um cavalo, com listras, preto e branco) e então identificar aquelas categorias que nunca viu antes com base na descrição de as características da categoria desconhecida. Em outras palavras, o modelo aplica conhecimentos e recursos previamente aprendidos para o reconhecimento de objetos desconhecidos.

Exemplo de aprendizagem zero-shot (ZSL)

2. A capacidade de aprendizagem de amostra zero do SAM é reconhecida

O SAM está equipado com uma capacidade de segmentação zero-shot, que pode gerar máscaras de alta qualidade (Máscara) a partir de várias entradas de prompt (incluindo pontos, caixas e texto). Existem muitos artigos acadêmicos discutindo a capacidade ZSL do SAM, como "SAM.MD: Capacidades de segmentação de imagens médicas de disparo zero do modelo Segment Anything" para testar o efeito ZSL do SAM e inserir alguns pontos e caixas como prompts no tarefa de segmentação de imagem. Os resultados mostram que usuários experientes podem obter segmentação rápida e semiautomática na maioria dos cenários por meio do SAM. Embora o SAM não tenha demonstrado desempenho de segmentação totalmente automatizado em experimentos, ele poderia ser um potencial catalisador para o desenvolvimento de ferramentas de segmentação semiautomáticas para médicos.

IMG_265

Aplicação da capacidade de aprendizagem de amostra zero do SAM em imagens de TC

4. SA-1B: O maior conjunto de dados de segmentação até o momento, ajudando a aumentar a eficiência do modelo

1. Mecanismo de dados: use o mecanismo de dados para gerar máscaras

O SAM usa o conjunto de dados para treinamento e usa o método de imagem de anotação interativa do SAM para anotar os dados. Além disso, são adotados novos métodos de recolha de dados para combinar o poder dos modelos e anotadores para melhorar a eficiência e a qualidade da recolha de dados. Todo o processo pode ser dividido em três etapas para tornar o mecanismo de dados do SAM mais completo e eficiente.

Diagrama esquemático do SAM usando mecanismo de dados para coletar dados progressivamente

1) Etapa manual: Na etapa de anotação manual assistida por modelo, o anotador utiliza o modelo SAM como ferramenta auxiliar para gerar a MASK clicando na imagem, selecionando uma caixa ou inserindo texto, e o modelo atualizará a MASK em real tempo com base na entrada do anotador. e fornece algumas MASKs opcionais para os anotadores escolherem e modificarem. Este método permite que os anotadores segmentem objetos em imagens com rapidez e precisão, sem desenho manual. Seu objetivo é coletar MASKs de alta qualidade para treinamento e aprimoramento de modelos SAM.

2) Estágio semiautomático: O modelo SAM já possui certos recursos de segmentação e pode prever automaticamente objetos na imagem. Porém, devido à imperfeição do modelo, podem ocorrer erros ou omissões na previsão da MASK. A principal tarefa do anotador é verificar e corrigir os resultados da previsão do modelo para garantir a precisão e integridade da MASK. O objetivo desta etapa é coletar mais MASKs para melhorar ainda mais o desempenho e as capacidades de generalização do modelo SAM.

3) Estágio totalmente automático: O modelo SAM atingiu um alto nível e pode segmentar com precisão todos os objetos na imagem sem qualquer intervenção manual. Portanto, o trabalho do anotador passa a validar e validar a saída do modelo para garantir que não haja erros. Esta etapa visa utilizar os recursos de anotação automática do modelo SAM para expandir rapidamente a escala e a cobertura do conjunto de dados.

2. Conjunto de dados: use o mecanismo de dados para gerar máscaras

Ao realizar gradualmente o método de "anotação manual assistida por modelo - semi-anotação semiautomática - máscara de segmentação de modelo totalmente automática", a equipe SAM criou com sucesso um conjunto de dados de segmentação de imagem denominado SA-1B. O conjunto de dados é caracterizado por escala sem precedentes, alta qualidade, rica diversidade e proteção de privacidade.

1) Quantidade e qualidade da imagem: SA-1B contém 11 milhões de fotos diversas, de alta definição e protegidas pela privacidade, fornecidas e licenciadas por uma grande empresa fotográfica, atendem aos requisitos de licença de dados relevantes e estão disponíveis para uso em computador. .

2) Quantidade e qualidade de máscaras de segmentação: SA-1B contém 1,1 bilhão de máscaras de segmentação fina, que são geradas automaticamente pelo mecanismo de dados desenvolvido pela Meta, demonstrando os poderosos recursos de anotação automatizada do mecanismo.

3) Resolução da imagem e número de máscaras: A resolução média de cada imagem é de 1500x2250 pixels, e cada imagem contém cerca de 100 máscaras.

4) Comparação do tamanho do conjunto de dados: SA-1B é mais de 400 vezes maior que o conjunto de dados de segmentação existente; em comparação com a anotação de máscara totalmente manual baseada em polígonos (como o conjunto de dados COCO), o método usando SAM é 6,5 vezes mais rápido ; do que no passado Os maiores trabalhos de rotulagem de dados são realizados duas vezes mais rápido.

IMG_267

SA-1B é 400 vezes maior que os conjuntos de dados segmentados existentes

O objetivo do conjunto de dados SA-1B é treinar um modelo geral que possa segmentar qualquer objeto a partir de imagens de mundo aberto. Este conjunto de dados não só fornece uma poderosa base de treinamento para o modelo SAM, mas também fornece um novo recurso de pesquisa e referência para o campo da segmentação de imagens.

Além disso, no artigo SA-1B, o autor realiza análises RAI (Responsible AI, Responsible Intelligence) e aponta que as imagens desse conjunto de dados possuem características mais fortes em termos de representação inter-regional.

O conjunto de dados SA-1B tem forte representação inter-regional.

5. Principais vantagens do SAM: reduzir os requisitos de treinamento e melhorar o desempenho da segmentação

O principal objetivo do SAM é atingir a segmentação universal alvo sem exigir conhecimento profissional de modelagem, reduzindo os requisitos de computação de treinamento e máscaras auto-rotuladas. Para atingir gradativamente esse objetivo, o SAM adota os três métodos a seguir para construir um modelo geral de segmentação no campo da imagem:

1) Escala e qualidade dos dados

SAM tem capacidade de migração de amostra zero e coleta uma grande quantidade de dados de segmentação de imagens de alta qualidade (11 milhões de imagens e 1,1 bilhão de máscaras) para construir o conjunto de dados SA-1B. Este é atualmente o maior conjunto de dados de segmentação de imagens, excedendo em muito os anteriores. conjunto de dados.

2) Eficiência e flexibilidade do modelo

SAM baseia-se na arquitetura do modelo Transformer e combina mecanismos de atenção e redes neurais convolucionais para obter um modelo de segmentação de imagem eficiente e orientável. O modelo é capaz de lidar com imagens de tamanhos e escalas arbitrárias e pode gerar diferentes resultados de segmentação com base em diferentes sinais de entrada.

O modelo de segmentação sugestionável do SAM é dividido em três partes

3) Generalização e transferência de tarefas

SAM alcança capacidades de generalização e transferência para tarefas de segmentação de imagens. Ele constrói um modelo de segmentação de imagem capaz de transferência zero-shot, adotando um método que solicita tarefas de segmentação. Isso significa que o SAM pode se adaptar a novas distribuições de imagens e tarefas sem exigir dados de treinamento adicionais ou ajustes finos. Esse recurso faz com que o SAM tenha um bom desempenho em múltiplas tarefas de segmentação de imagens, superando até mesmo alguns modelos supervisionados.

Atualmente o SAM já conta com as seguintes funções:

Aprender conceitos de objetos permite compreender os conceitos e características dos objetos nas imagens.

Gere máscaras para objetos invisíveis Gere máscaras precisas para objetos invisíveis em imagens ou vídeos.

A alta versatilidade possui uma ampla gama de aplicações e pode ser adaptada a diferentes cenários e tarefas.

Suporta vários métodos interativos O SAM oferece suporte aos usuários para usar vários métodos interativos para segmentação de imagens e vídeos, como segmentação por seleção de todos para identificar automaticamente todos os objetos na imagem e segmentação por seleção de quadro (a segmentação pode ser concluída simplesmente selecionando a parte selecionada por o usuário).

Segmentação por seleção de caixa (BOX)

No campo da segmentação de imagens, o SAM é um modelo revolucionário. Ele introduz um novo paradigma e forma de pensar, fornecendo novas perspectivas e direções para a pesquisa de modelos básicos no campo da visão computacional. O surgimento do SAM mudou a compreensão das pessoas sobre a segmentação de imagens e trouxe enormes progressos e avanços para a área.

2. Com base na criação secundária do SAM, os modelos derivados melhoram o desempenho

Desde a introdução do SAM, esta tecnologia tem despertado grande interesse e discussão no campo da inteligência artificial, e derivou uma série de modelos e aplicações relacionadas, como SEEM e MedSAM. Esses modelos são amplamente utilizados em diferentes áreas, como engenharia, imagens médicas, imagens de sensoriamento remoto, agricultura, etc. Baseando-se nos conceitos e métodos do SAM, e através de melhorias e otimização adicionais, o SAM tem uma gama de aplicações mais ampla.

1) PARECER: A interação e a semântica são mais generalizadas e a qualidade da segmentação é melhorada.

SEEM é mais geral que SAM tanto na interação quanto no espaço semântico.

SEEM é um novo modelo interativo baseado em SAM, que usa a poderosa capacidade de generalização de amostra zero do SAM para realizar a tarefa de segmentar todos os objetos em qualquer imagem. O modelo combina SAM com um detector para gerar máscaras de objetos correspondentes usando as caixas delimitadoras emitidas pelo detector como sinais de entrada. SEEM pode fornecer múltiplas modalidades de entrada (como texto, imagens, graffiti, etc.) de acordo com o usuário, e completar todas as tarefas de segmentação de conteúdo e reconhecimento de objetos em imagens ou vídeos de uma só vez.

Esta pesquisa foi experimentada em vários conjuntos de dados públicos e sua qualidade e eficiência de segmentação são melhores que o SAM. Vale ressaltar que SEEM é a primeira interface universal a suportar diversos tipos de entrada do usuário, incluindo texto, pontos, graffiti, caixas e imagens, proporcionando poderosas capacidades de combinação.

SEEM realiza reconhecimento de imagem com base em pontos e grafites inseridos pelo usuário

SEEM possui características de classificação e reconhecimento, podendo inserir diretamente uma imagem de referência e especificar uma área de referência, segmentando assim outras imagens e encontrando objetos consistentes com a área de referência. Ao mesmo tempo, o modelo também possui uma função de segmentação de amostra zero, que pode segmentar com precisão objetos de referência para vídeos desfocados ou submetidos a deformações severas. Com entradas como primeiros quadros e grafites fornecidos pelo usuário, o SEEM é capaz de funcionar bem em aplicações como cenas de estrada e cenas de esportes.

SEEM segmenta outras imagens com base em imagens de referência

2) MedSAM: Melhore a percepção e aplique segmentação de imagens médicas

A fim de avaliar o desempenho do SAM em tarefas de segmentação de imagens médicas, a Universidade de Shenzhen e outras universidades colaboraram para criar o conjunto de dados COSMOS 553K (o maior conjunto de dados de segmentação de imagens médicas até agora).Os pesquisadores usaram este conjunto de dados para obter resultados abrangentes, multiangulares e detalhados. avaliação em escala. Este conjunto de dados considera as diversas modalidades de imagem, limites complexos e amplas escalas de objetos de imagens médicas, apresentando desafios maiores. Através desta avaliação, podemos obter uma compreensão mais abrangente do desempenho do SAM em tarefas de segmentação de imagens médicas.

Estrutura detalhada para testes de imagens médicas de segmentação SAM

De acordo com os resultados da avaliação, embora o SAM tenha potencial para se tornar um modelo geral de segmentação de imagens médicas, seu desempenho em tarefas de segmentação de imagens médicas não é suficientemente estável. Especialmente no modo de segmentação Tudo totalmente automático, o SAM tem pouca adaptabilidade à maioria das tarefas de segmentação de imagens médicas e sua capacidade de perceber alvos de segmentação médica precisa ser melhorada. Portanto, a aplicação do SAM na área de segmentação de imagens médicas requer mais pesquisas e aprimoramentos.

Conjunto de dados COSMOS 553K e efeito de segmentação para testar o desempenho de segmentação de imagens médicas do SAM

.

Portanto, no campo da segmentação de imagens médicas, o foco da pesquisa deve ser como usar uma pequena quantidade de imagens médicas para ajustar efetivamente o modelo SAM para melhorar sua confiabilidade e construir um modelo Segment Anything adequado para imagens médicas. Para atingir esse objetivo, o MedSAM propõe um método simples de ajuste fino para adaptar o SAM a tarefas gerais de segmentação de imagens médicas. Através de experimentos abrangentes em 21 tarefas de segmentação 3D e 9 tarefas de segmentação 2D, o MedSAM demonstra que seu desempenho de segmentação é melhor que o modelo SAM padrão. Esta pesquisa fornece um método eficaz para segmentação de imagens médicas, permitindo que o modelo SAM se adapte melhor às características das imagens médicas e obtenha melhores resultados de segmentação.

Esquema MedSAM

3) SAM-Track: expanda os campos de aplicação SAM e melhore o desempenho da segmentação de vídeo 

O mais recente projeto SAM-Track de código aberto foi desenvolvido por pesquisadores do Laboratório ReLER da Universidade de Zhejiang para aprimorar as capacidades do modelo SAM na área de segmentação de vídeo. SAM-Track pode segmentar e rastrear qualquer objeto e suporta diversas cenas espaço-temporais, como vista de rua, AR, células, animação e fotografia aérea. Este projeto pode atingir segmentação e rastreamento de alvo em um único cartão e pode rastrear mais de 200 objetos ao mesmo tempo, fornecendo aos usuários recursos poderosos de edição de vídeo.

Comparado com a tecnologia tradicional de segmentação de vídeo, o SAM-Track possui maior precisão e confiabilidade. Ele pode identificar objetos de forma adaptativa em diferentes cenas e realizar segmentação e rastreamento com rapidez e precisão, permitindo aos usuários realizar facilmente edição e pós-produção de vídeo para obter melhores efeitos visuais. No geral, o SAM-Track é uma realização significativa de pesquisa baseada no SAM, que traz novas possibilidades de pesquisa e aplicações na área de segmentação e rastreamento de vídeo. Seu surgimento trouxe mais oportunidades e desafios para edição de vídeo, pós-produção e outras áreas.

3. Modelos SAM e derivados permitem aplicações em vários cenários

O modelo SAM é um modelo de segmentação de imagem eficiente e preciso que tem amplo potencial para aplicação no campo da visão computacional.Ele pode capacitar o campo da visão mecânica industrial para reduzir custos, aumentar a eficiência, treinamento rápido e reduzir a dependência de dados. Na indústria de AR/CR, direção autônoma e campos de monitoramento de segurança, o SAM pode ser usado para capturar e segmentar imagens dinâmicas. Embora possa envolver desafios em tecnologia, poder de computação e privacidade ética, seu potencial de desenvolvimento é enorme. 

Além disso, o SAM pode ser difícil para tarefas de segmentação em algumas cenas específicas, mas pode ser melhorado através de ajuste fino ou do uso de módulos adaptadores. Nas áreas de imagens médicas e processamento de imagens de sensoriamento remoto, o SAM pode se adaptar a tarefas de segmentação por meio de simples ajuste fino ou treinamento com uma pequena quantidade de dados anotados. Além disso, o SAM também pode ser usado em combinação com outros modelos ou sistemas, como classificadores para detecção e reconhecimento de objetos ou geradores para edição e transformação de imagens. Essa combinação pode melhorar ainda mais a precisão e a eficiência da segmentação de imagens e trazer mais cenários de aplicação para diversos setores.

1) Baseado na reconstrução 3D, capacitando AR e jogos 

No campo de AR/VR, os modelos SAM combinam tecnologia de reconstrução 3D e algoritmos de processamento de imagem para fornecer aos usuários uma experiência visual mais realista e envolvente. Através do modelo SAM, os usuários podem converter imagens 2D em cenas 3D e observá-las e manipulá-las em dispositivos AR ou VR para realizar a simulação e restauração do mundo real. Esta combinação de tecnologias traz aos usuários uma experiência interativa altamente imersiva, permitindo-lhes interagir com objetos do mundo virtual e desfrutar de uma experiência visual mais realista.

Além disso, o modelo SAM também combina algoritmos de aprendizagem profunda para reconhecer e rastrear a visão e os gestos do usuário para alcançar um método de interação mais inteligente. Por exemplo, quando o usuário olha para um objeto, o modelo SAM pode focar automaticamente e fornecer informações mais detalhadas; quando o usuário faz operações gestuais, o modelo SAM também pode responder rapidamente para ajustar e alterar a cena.

2) Rastreie objetos em movimento e capacite o monitoramento de segurança 

No campo da segmentação de imagens, o SAM é um modelo eficiente e preciso que pode segmentar vídeos e imagens dinâmicas, e gera duas aplicações derivadas, SEEM e SAM-Track. Esses modelos derivados fazem pleno uso da capacidade de generalização zero-shot do SAM para obter segmentação precisa de objetos alvo em vídeos desfocados ou gravemente deformados, usando imagens de referência e informações de entrada do usuário, como graffiti e texto.

Por exemplo, em vídeos como parkour, esportes e jogos, os algoritmos tradicionais de segmentação de imagens muitas vezes não conseguem lidar com fundos complexos e objetos alvo em movimento rápido. No entanto, o modelo SEEM não só é capaz de identificar com precisão objetos de referência, mas também elimina a interferência de fundo, melhorando assim a precisão da segmentação. Resumindo, o modelo SAM e suas aplicações relacionadas apresentam excelente desempenho e precisão no tratamento de problemas de segmentação de imagens com características dinâmicas.

SEEM pode segmentar com precisão objetos de referência em vídeos de parkour, esportes e jogos

Além de aplicações em cenários esportivos, o SEEM e o SAM-Track também podem capacitar áreas como segurança e vigilância por vídeo para segmentar com precisão objetos em vídeos para posterior identificação e processamento. SEEM e SAM-Track podem julgar com precisão o objeto alvo e realizar segmentação precisa por meio das informações de prompt de entrada.

3) Resolver o problema da cauda longa e capacitar a condução autônoma

Embora a tecnologia de condução autónoma tenha sido implementada com sucesso em mais de 90% dos cenários rodoviários, ainda existem 10% dos problemas dos cenários de cauda longa, principalmente devido à imprevisibilidade das condições das estradas e das condições de condução dos veículos. Estes cenários de cauda longa incluem situações extremas, como emergências, terrenos complexos e condições meteorológicas severas, como chuvas fortes, nevascas e trovões e relâmpagos, que representam um enorme desafio para as capacidades de identificação e tomada de decisão dos sistemas de condução autónoma. Além disso, no tráfego urbano, também deve ser considerado o impacto de factores como veículos não motorizados, peões e edifícios no sistema de condução autónoma.

Para resolver o problema da cauda longa, a tecnologia de condução autónoma precisa de integrar mais algoritmos e sensores e melhorar o nível de inteligência do sistema através de métodos como a recolha de dados e a aprendizagem profunda. Por exemplo, a capacidade de identificar e rastrear objetos alvo é melhorada pela integração de dados de sensores como radar, câmeras e lidar. Ao mesmo tempo, algoritmos de aprendizagem profunda podem ser usados ​​para simular e prever cenários complexos. Além disso, a tecnologia de inteligência artificial é introduzida para permitir que o sistema de condução autónoma aprenda e otimize continuamente em cenários de cauda longa para melhorar a sua adaptabilidade e capacidades de generalização.

Existem muitas cenas de cauda longa em cenas de estradas urbanas

No campo da condução autônoma, a segmentação de imagens desempenha um papel fundamental na detecção e compreensão do ambiente rodoviário. SAM (Segment Anything Model) pode obter uma percepção precisa da cena marcando e segmentando diferentes objetos e regiões nas imagens. Os métodos tradicionais de anotação manual são demorados e propensos a erros, enquanto a segmentação automatizada do SAM pode reduzir significativamente os custos e melhorar a precisão.

O SAM pode detectar elementos-chave como marcações rodoviárias, linhas de faixa, pedestres e semáforos em tempo real no sistema de direção autônoma. Ao combinar com outros modelos de aprendizagem profunda, como detecção de alvos e modelos de planejamento de trajetória, o SAM pode compreender com precisão o ambiente circundante e ajudar os sistemas de direção autônomos a tomar decisões seguras e eficientes.

Tomando como exemplo o reconhecimento de pedestres e o rastreamento de faixas, o SAM pode prever as trajetórias de movimento de pedestres e veículos para ajudar a reduzir riscos potenciais de acidentes de trânsito.

4) Melhore o desempenho da segmentação e capacite imagens de sensoriamento remoto

As imagens de sensoriamento remoto são uma ferramenta importante para a obtenção de informações da superfície terrestre por meio de sensores remotos, como satélites e aeronaves, possuem características de diversidade, cobertura total e alta precisão, e desempenham um papel indispensável no desenvolvimento da ciência e tecnologia modernas. Imagens de sensoriamento remoto são amplamente utilizadas em áreas como monitoramento ambiental, gestão de recursos naturais, planejamento urbano e alerta precoce de desastres.

Os dados de sensoriamento remoto incluem dados de sensoriamento remoto óptico, dados espectrais, dados de radar SAR, dados de drones e outros tipos. O processamento de dados de sensoriamento remoto é geralmente dividido em duas etapas: a primeira etapa processa os dados de satélite recebidos através do sistema de processamento terrestre de sensoriamento remoto, incluindo correção atmosférica, homogeneização de cores e corte de imagens, etc., para obter imagens que possam ser posteriormente identificadas e processadas ; a segunda etapa A segunda etapa consiste em processar e interpretar ainda mais as imagens de sensoriamento remoto nesta base, principalmente para identificar objetos nas imagens.

Devido à diversidade, complexidade e grande quantidade de dados nas imagens de sensoriamento remoto, existem muitos desafios e dificuldades no processo de processamento.

O processamento de imagens passa por três etapas:

Etapa de interpretação manual: depende totalmente de anotadores para interpretação de imagens, mas esse método é caro e a eficiência de interpretação é baixa;

Estágio de detecção remota AI+: Com o apoio da tecnologia AI e do poder computacional, a dificuldade de interpretação de imagens é efetivamente aliviada e a colaboração homem-máquina é alcançada. À medida que aumenta o número de plataformas de observação e satélites, como sensoriamento remoto e mapeamento, a combinação de IA e sensoriamento remoto oferece mais possibilidades de interpretação de imagens;

A era dos grandes modelos de sensoriamento remoto: Com o lançamento de grandes modelos de redes neurais, espera-se que a interpretação de imagens de sensoriamento remoto entre no estágio de grandes modelos.

Estágio de desenvolvimento do processamento de imagens de sensoriamento remoto

Grande modelo de segmentação de imagens de sensoriamento remoto SAM é uma tecnologia emergente que fornece um novo método para processamento de imagens de sensoriamento remoto. Com base em algoritmos de aprendizagem profunda, o SAM pode segmentar, identificar e gerar imagens de sensoriamento remoto de forma eficiente, melhorando significativamente a eficiência da interpretação de imagens de sensoriamento remoto. Usando o modelo SAM para segmentação de imagens de sensoriamento remoto, os usuários podem gerar mapas e modelos 3D de alta qualidade com rapidez e precisão, melhorando assim a eficiência e a precisão do monitoramento ambiental e do gerenciamento de recursos. Além disso, o modelo SAM também suporta a fusão de dados de múltiplas fontes, combinando imagens de sensoriamento remoto com outros dados para produzir resultados de análise mais abrangentes e precisos. Melhorar a eficiência do processamento de dados de sensoriamento remoto não apenas estabelece uma base sólida para aplicações de sensoriamento remoto, mas também traz um espaço de desenvolvimento mais amplo para aplicações de sensoriamento remoto downstream.

Modelos grandes são usados ​​no processamento de imagens de sensoriamento remoto

Embora o grande modelo SAM ainda enfrente desafios ao lidar com algumas tarefas difíceis de segmentação de imagens de sensoriamento remoto, como baixa precisão diante de tarefas como sombras, segmentação de cobertura e posicionamento oculto de animais. A tarefa de segmentação de imagens de sensoriamento remoto exige que o modelo tenha maiores capacidades de percepção e reconhecimento. O modelo SAM atualmente é incapaz de "segmentar tudo" completamente, especialmente no processamento de detalhes. Ainda há espaço para melhorias adicionais. No entanto, através da melhoria e otimização contínuas, o desempenho do modelo SAM pode ser melhorado.

Além disso, o RS-promter é um método de aprendizado rápido para segmentação de instâncias de imagens de sensoriamento remoto com base no modelo básico do SAM criado pela equipe de especialistas após o lançamento do SAM. Este método, denominado RSPrompter, permite que o SAM gere resultados de segmentação de imagens de sensoriamento remoto semanticamente discerníveis sem criar prompts manualmente. O objetivo do RSPrompter é gerar prompts automaticamente para obter máscaras semânticas em nível de instância. Esta abordagem não é aplicável apenas ao SAM, mas também pode ser estendida a outros modelos básicos.

O modelo SAM ainda é um desafio no tratamento de tarefas difíceis de segmentação de imagens de sensoriamento remoto, mas seu desempenho pode ser melhorado através de melhorias e otimização, incluindo a introdução de mais conjuntos de dados, a adoção de arquiteturas de redes neurais mais avançadas e o aprimoramento de métodos baseados em RS-promter.

Prompt baseado em âncora

Os pesquisadores conduziram uma série de experimentos para verificar o efeito do RSPrompter. Esses experimentos não apenas demonstram a eficácia de cada componente do RSPrompter, mas também demonstram seu melhor desempenho do que outras técnicas de segmentação de instâncias de última geração e métodos baseados em SAM em três conjuntos de dados públicos de sensoriamento remoto.

Mockups trazem motivadores e desafios para a indústria aeroespacial

A introdução de grandes modelos traz novos impulsos e desafios ao campo das imagens de sensoriamento remoto. Na aplicação de dados multimodais de sensoriamento remoto espaço-tempo, grandes modelos têm uma ampla gama de aplicações baseadas em radar de abertura sintética (SAR), óptica, satélites multiespectrais e fotografia aérea de UAV. Com a ajuda da infraestrutura de grandes modelos de código aberto, o desenvolvimento de modelos personalizados é realizado para dados de sensoriamento remoto para obter capacidades de construção de grandes modelos de sensoriamento remoto completo e completo. Além disso, o modelo grande suporta o processamento de parâmetros de modelo em grande escala e volumes de dados rotulados para obter processamento e análise de dados de sensoriamento remoto mais eficientes e precisos, e fornece suporte técnico para recuperação inteligente e envio de imagens, extração inteligente e edição de imagens terrestres. objetos, linhas de produtos gêmeos digitais e outros campos.

No futuro, o treinamento de modelos grandes e a implantação de modelos pequenos serão combinados para obter melhores resultados de aplicação. Os métodos tradicionais de processamento de imagens são difíceis de atender aos requisitos de processamento de imagens de sensoriamento remoto, portanto, o uso de modelos grandes para processar imagens de sensoriamento remoto tornou-se uma direção importante da pesquisa atual. A capacitação do modelo SAM aumenta ainda mais a importância e o valor da aplicação das imagens de detecção remota, traz novas oportunidades e desafios para a investigação e aplicação neste campo e fornece apoio técnico para as pessoas compreenderem e utilizarem melhor os recursos terrestres.

5) Impulsionadas por aplicações de poder computacional, as funções que capacitam a visão mecânica são classificadas principalmente em quatro tipos: identificação, medição, posicionamento e detecção.

identificar

Ao identificar as características do objeto alvo, como forma, cor, caracteres, código de barras, etc., é obtida uma triagem de alta velocidade e alta precisão. 

Medição

Converta informações de pixel da imagem em unidades de medida comumente usadas para calcular com precisão as dimensões geométricas do objeto alvo. A visão mecânica tem vantagens em medições morfológicas complexas e alta precisão. 

posição

Obtenha as informações de posição bidimensional ou tridimensional do objeto alvo.

Detecção

Principalmente para inspeção de aparência, o conteúdo cobre uma ampla gama de tópicos. Por exemplo, testes de integridade após a montagem do produto, detecção de defeitos de aparência (como arranhões, irregularidades).

Quatro principais funções e dificuldades da visão mecânica

A visão mecânica é chamada de "olho da fabricação inteligente" e é amplamente utilizada no campo da automação industrial. Um sistema típico de visão mecânica inclui uma fonte de luz, lente, câmera e sistema de controle de visão (incluindo software de análise de processamento de visão e hardware controlador de visão). De acordo com diferentes tecnologias, a visão mecânica pode ser dividida em tecnologia de imagem baseada em hardware e tecnologia de análise visual baseada em software. O desenvolvimento da visão mecânica é afetado por quatro forças motrizes principais, incluindo imagens, algoritmos, poder computacional e aplicações. Cada aspecto desempenha um papel importante na promoção do desenvolvimento da visão mecânica e é indispensável.

A história do desenvolvimento da visão mecânica

O desenvolvimento da tecnologia de visão artificial é afetado por duas forças motrizes principais.

Orientado para aplicações: Com a adoção gradual da tecnologia de visão mecânica nas indústrias de manufatura tradicionais e o surgimento de indústrias emergentes, a demanda por visão mecânica continua a aumentar. No campo da fabricação inteligente, a tecnologia de visão mecânica pode ajudar as empresas a realizar a produção automatizada e melhorar a eficiência da produção e a qualidade do produto. No campo dos cuidados médicos inteligentes, a tecnologia de visão mecânica pode auxiliar os médicos no diagnóstico e tratamento, melhorando os padrões médicos e os efeitos do tratamento.

Poder computacional/unidade de algoritmo: Com o aumento do poder computacional da CPU e a rápida evolução dos algoritmos de IA, especialmente a aplicação de tecnologias como aprendizagem profunda, a tecnologia de visão mecânica tornou-se mais eficiente e precisa no processamento e análise de imagens. A promoção de equipamentos de computação de alto desempenho e o avanço contínuo de algoritmos fornecem um forte apoio ao desenvolvimento da tecnologia de visão artificial.

A introdução de grandes modelos de IA trouxe grandes avanços para a indústria de visão mecânica. Atualmente, o campo da visão mecânica utiliza tecnologias avançadas, incluindo aprendizagem profunda, processamento e análise 3D, fusão de percepção de imagem e processamento de imagem acelerado por hardware. Essas tecnologias e modelos melhoraram muito os recursos de aplicação inteligente da visão mecânica, melhoraram a complexidade e a precisão do reconhecimento de imagens, ao mesmo tempo que reduziram custos e melhoraram a eficiência.

A rede leve de reconhecimento facial baseada em IA pode ser usada para análise de vídeo em tempo real, monitoramento de segurança, etc.

A IA tem uma ampla gama de aplicações no campo da visão mecânica. Redes de aprendizagem profunda, como a CNN, são usadas para detectar e identificar objetos, classificar imagens para compreender cenas, melhorar a qualidade da imagem e os efeitos de recuperação, obter análise em tempo real e detecção de anomalias e realizar reconstrução 3D e tecnologias de realidade aumentada. Ao mesmo tempo, a IA dá à visão mecânica a capacidade de “entender” as imagens que vê, trazendo inovação ilimitada e oportunidades de desenvolvimento para vários cenários de aplicação.

Entre eles, o SAM, como um importante modelo de IA no campo visual, pode promover inovação e progresso no campo da visão mecânica. Por exemplo, o SAM pode ser aplicado diretamente em cidades inteligentes para melhorar a eficiência de tarefas como monitorização de tráfego e reconhecimento facial. No campo da fabricação inteligente, o SAM pode aprimorar os recursos de inspeção visual e controle de qualidade. Além disso, o SAM também pode ser combinado com a tecnologia OVD para gerar automaticamente as informações necessárias e melhorar a compreensão semântica, melhorando assim a experiência interativa do usuário. Resumindo, a aplicação da IA ​​no campo da visão artificial e a utilização de modelos SAM trouxeram um enorme potencial e oportunidades para vários campos.

Processo básico de detecção de alvo OVD

Configuração do ambiente de modelo grande SAM


Para implantar o "Modelo Segmentar Qualquer Coisa", você precisa seguir as seguintes etapas:

Colete e rotule dados de treinamento: Colete dados de imagem dos objetos que o modelo irá segmentar e rotulá-los.

Execute o pré-processamento de dados: antes do treinamento, pré-processe as imagens (redimensione a imagem, corte áreas irrelevantes ou aplique técnicas de aumento) para melhorar a precisão e a capacidade de generalização do modelo.

Construir e treinar o modelo: Escolha um modelo adequado e treine-o usando dados pré-processados ​​(arquitetura de rede apropriada, ajuste de hiperparâmetros e otimização da função de perda do modelo).

Avaliação e ajuste do modelo: Avalie o modelo treinado para garantir seu desempenho em tarefas de segmentação. O ajuste do modelo pode ser realizado, como ajuste de limites, adição de dados de treinamento ou uso de técnicas como aprendizagem por transferência.

Implantação e inferência: Implante o modelo treinado no ambiente de destino e use novos dados de imagem para inferência.

A seguir está o processo de operação específico:

Certifique-se de que o sistema atenda aos seguintes requisitos: a versão do Python é maior ou igual a 3,8, a versão do PyTorch é maior ou igual a 1,7 e a versão do torchvision é maior ou igual a 0,8.

Você pode consultar o tutorial oficial para operar: https://github.com/facebookresearch/segment-anything

1. A seguir estão várias maneiras de instalar a biblioteca principal:

1. Use pip para instalar (o Git precisa ser configurado):

Instalação de pip

git+https://github.com/facebookresearch/segment-anything.git

2. Instalação local (o Git precisa ser configurado):

git clone [email protected]:faceboo\kresearch/segment-anything.git

segmento de cd-qualquer coisa

pip instalar -e.

3. Download manual + instalação local manual:

O assistente de mensagens privadas obtém o arquivo zip, descompacta-o e executa o seguinte comando:

cd segmento-qualquer coisa-principal

pip instalar -e.

2. Instale bibliotecas dependentes:

Para instalar bibliotecas dependentes, você pode executar o seguinte comando:

pip instalar opencv-python pycocotools matplotlib onnxruntime onnx

Observe que se você encontrar erros ao instalar o matplotlib, você pode tentar instalar uma versão específica do matplotlib, como a versão 3.6.2. Uma versão específica do matplotlib pode ser instalada usando o seguinte comando:

pip instalar matplotlib==3.6.2

3. Baixe o arquivo de peso:

Você pode baixar um dos três arquivos de peso nos seguintes links:

1. padrão ou vit_h: modelo ViT-H SAM.

2. vit_l: modelo ViT-L SAM.

3. vit_b: modelo SAM ViT-B.

Se achar que a velocidade de download está muito lenta, envie uma mensagem privada ao assistente para obter o arquivo de peso.

Ao baixar e usar um dos arquivos de peso, você poderá usar o modelo pré-treinado correspondente em um modelo "Segment Anything".

Como configurar o servidor do modelo SAM de treinamento


No campo da visão computacional, a segmentação de imagens é uma tarefa fundamental que envolve segmentar com precisão diferentes objetos ou regiões em uma imagem. Como ChatGPT baseado no campo CV, o modelo SAM oferece recursos poderosos para tarefas de segmentação de imagens. Entretanto, para usar o modelo SAM, é necessário configurar um servidor adequado ao ambiente SAM e atender aos requisitos do modelo SAM em termos de recursos computacionais e espaço de armazenamento.

Configurar servidores adequados ao seu ambiente SAM é fundamental para aproveitar ao máximo o modelo SAM. Para atender aos requisitos do modelo SAM em termos de recursos computacionais e espaço de armazenamento, é necessário garantir que o servidor tenha recursos suficientes de CPU e GPU, espaço de armazenamento e conexões de rede de alto desempenho.

1. Requisitos de recursos computacionais

Como o modelo SAM depende de algoritmos de aprendizado profundo, são necessárias operações matriciais em larga escala e treinamento de redes neurais. Portanto, geralmente é necessária uma grande quantidade de recursos computacionais para uma segmentação eficiente de imagens. Portanto, ao configurar o ambiente SAM, é necessário garantir que o servidor tenha recursos de CPU e GPU suficientes para suportar os requisitos de computação do modelo SAM. Especialmente ao processar conjuntos de dados de imagens em grande escala, o servidor precisa ter altas capacidades de computação paralela para garantir a operação eficiente do modelo.

1、GPU

1) Memória GPU: os modelos SAM requerem uma grande quantidade de memória para armazenar parâmetros do modelo e dados de imagem. Portanto, é crucial escolher uma GPU com capacidade de memória suficiente.

2) Poder de computação GPU: O modelo SAM depende de algoritmos de aprendizado profundo e requer operações matriciais em larga escala e treinamento de rede neural. Portanto, a escolha de uma GPU com maior poder computacional pode melhorar a eficiência de execução do modelo SAM. Por exemplo, escolha uma GPU com mais núcleos CUDA e uma alta frequência de clock.

2. CPU

Embora a GPU desempenhe um papel importante no modelo SAM, a CPU também é um componente que não pode ser ignorado na configuração do servidor. No modelo SAM, a CPU é principalmente responsável pelo pré-processamento de dados, carregamento do modelo e outras tarefas que não exigem muita computação. Portanto, ao escolher uma CPU, você precisa considerar os seguintes fatores:

1) Número de núcleos de CPU: Como a CPU pode processar múltiplas tarefas em paralelo, escolher uma CPU com mais núcleos pode melhorar o desempenho geral do modelo SAM.

2) Frequência de clock da CPU: O pré-processamento de modelos SAM e outras tarefas que não exigem muita computação geralmente requerem frequências de clock mais altas. Portanto, escolher uma CPU com frequência de clock maior pode agilizar a execução dessas tarefas.

3. Recomendações de CPU + GPU comumente usadas

1)AMD EPYC 7763 + Nvidia A100 80GB

AMD 7763 é um chip EPYC de ponta de 64 núcleos. A memória de cartão único A100 de 80 GB tem até 80 GB, que pode suportar o treinamento de modelos grandes.

2) AMD EPYC 7742 + 8 AMD Instinct MI50 duplo

O 7742 é a CPU de servidor de 32 núcleos da geração anterior da AMD, e CPUs duplas podem fornecer 64 núcleos. MI50 é a GPU de última geração da AMD, com 16 GB de memória e 8 imagens podem fornecer recursos de computação suficientes.

3) Dual Intel Xeon Platinum 8280 + 8 Nvidia V100 32 GB

O 8280 é o principal CPU de 28 núcleos da série Intel Scalable, com CPUs duplas fornecendo 56 núcleos. V100 32GB de cartão único de 32GB de memória.

4) AMD EPYC 7713 + 8 Nvidia RTX A6000

O RTX A6000 é baseado na arquitetura Ampere e possui 48 GB de memória, que é mais econômico que o A100 e possui memória grande o suficiente.

5) Dual Intel Xeon Gold 6300 + 8 AMD Instinct MI100

A série Intel Xeon Gold 6300 oferece CPUs Xeon multi-core de baixo custo e o MI100 pode obter melhor desempenho de custo quando usado em conjunto.

6) Para CPU, o processador AMD EPYC série 7003 é uma boa escolha. Esta é a CPU de servidor EPYC de terceira geração da AMD, que usa o processo TSMC 5nm e tem até 96 núcleos Zen 3 para fornecer poderoso desempenho de processamento multithread. Para modelos específicos, você pode escolher o EPYC 7773X de 72 núcleos ou o EPYC 7713 de 64 núcleos.

Para GPUs, a GPU A100 Tensor Core da Nvidia é atualmente a primeira escolha para treinar grandes redes neurais. Ele é baseado na arquitetura Ampere, possui até 6.912 Tensor Cores e pode fornecer desempenho de ponto flutuante do Tensor de até 19,5 TFLOPS. 4-8 blocos de A100 podem ser configurados para atender às necessidades de treinamento.

Além disso, a GPU Instinct MI100 da AMD também é uma boa escolha. Ele usa a arquitetura CDNA, possui 120 unidades de computação e pode fornecer até 11,5 TFLOPS de desempenho de ponto flutuante de meia precisão. Mais econômico que o A100.

4. Requisitos de armazenamento

Ao realizar tarefas de segmentação de imagens, o modelo SAM precisa carregar e armazenar uma grande quantidade de parâmetros do modelo e dados de imagem. Portanto, o servidor precisa ter espaço de armazenamento suficiente para armazenar o modelo SAM e os dados relacionados. Além disso, para melhorar a eficiência operacional do modelo SAM, também podemos considerar o uso de dispositivos de armazenamento de alta velocidade, como SSD (Solid State Drive), para agilizar a leitura e gravação de dados.

5. Requisitos de rede de alto desempenho

Quando o modelo SAM realiza tarefas de segmentação de imagens, ele precisa receber e enviar uma grande quantidade de dados pela rede. Portanto, o servidor precisa ter uma conexão de rede estável e de alta velocidade para garantir uma transmissão rápida de dados e capacidades de resposta em tempo real do modelo. Especialmente ao lidar com tarefas de segmentação de imagens em tempo real, o servidor precisa ter uma conexão de rede de baixa latência e alta largura de banda para atender aos requisitos de tempo real.

Plataforma de treinamento de modelo grande Blue Ocean Brain


A plataforma de treinamento de modelos grandes Blue Ocean Brain fornece suporte poderoso de poder de computação, incluindo aceleradores de IA baseados na interconexão de alta velocidade de módulos de aceleração abertos. Configure memória de alta velocidade e suporte a topologia totalmente interconectada para atender aos requisitos de comunicação do paralelismo tensor no treinamento de modelos grandes. Ele suporta expansão de E/S de alto desempenho e pode ser estendido ao cluster Wanka AI para atender às necessidades de comunicação de grandes pipelines de modelos e paralelismo de dados. Poderoso sistema de refrigeração líquida hot swap e tecnologia inteligente de gerenciamento de energia, quando o BMC recebe falha de PSU ou aviso de erro (como falha de energia, oscilação de energia, superaquecimento), ele forçará automaticamente a CPU do sistema a entrar em ULFM (modo de frequência ultrabaixa para alcançar o menor consumo de energia) consumo). Comprometida em fornecer aos clientes soluções de computação de alto desempenho ecologicamente corretas e verdes por meio de "baixo carbono e economia de energia". Usado principalmente em aprendizagem profunda, educação acadêmica, biomedicina, exploração terrestre, meteorologia e oceanografia, centros de supercomputação, IA e big data e outras áreas.

1. Por que precisamos de um modelo grande?

1. O efeito do modelo é melhor

O efeito de modelos grandes em várias cenas é melhor do que o de modelos comuns

2. Capacidade criativa mais forte

Modelos grandes podem realizar geração de conteúdo (AIGC) para facilitar a produção de conteúdo em larga escala

3. Personalização flexível de cenários

Ao dar exemplos, podemos personalizar um grande número de cenários de aplicação para modelos grandes.

4. Dados menos rotulados

Ao aprender uma pequena quantidade de dados do setor, grandes modelos podem atender às necessidades de cenários de negócios específicos.

2. Recursos da plataforma

1. Agendamento heterogêneo de recursos de computação

Uma solução abrangente baseada em servidores de uso geral e hardware dedicado para agendamento e gerenciamento de múltiplos recursos computacionais heterogêneos, incluindo CPUs, GPUs, etc. Através de poderosas funções de gerenciamento de virtualização, os recursos de computação subjacentes podem ser facilmente implantados e vários modelos podem ser executados com eficiência. Ao mesmo tempo, as capacidades de aceleração de hardware de diferentes recursos heterogêneos são totalmente utilizadas para acelerar a execução e a velocidade de geração do modelo.

2. Armazenamento de dados estável e confiável

Suporta vários protocolos de tipo de armazenamento, incluindo serviços de armazenamento de blocos, arquivos e objetos. Agrupe recursos de armazenamento para obter a livre circulação de modelos e dados gerados, melhorando a utilização dos dados. Ao mesmo tempo, mecanismos de proteção de dados, como cópias múltiplas, domínios de falhas multiníveis e auto-recuperação de falhas, são adotados para garantir a operação segura e estável de modelos e dados.

3. Rede distribuída de alto desempenho

Fornece rede e armazenamento de recursos de computação, encaminha-os através de mecanismos de rede distribuída, transmite de forma transparente o desempenho da rede física e melhora significativamente a eficiência e o desempenho do poder de computação do modelo.

4. Garantia de segurança abrangente

Em termos de hospedagem do modelo, é adotado um mecanismo estrito de gerenciamento de permissões para garantir a segurança do warehouse do modelo. Em termos de armazenamento de dados, são fornecidas medidas como a implementação da privatização e a encriptação de discos de dados para garantir a segurança e a controlabilidade dos dados. Ao mesmo tempo, no processo de distribuição e operação do modelo, são fornecidas funções abrangentes de autenticação de conta e auditoria de log para garantir totalmente a segurança dos modelos e dados.

Três, configuração comum

Atualmente, H100, H800, A800, A100 e outras placas gráficas GPU são comumente usadas para treinamento de modelos grandes. A seguir estão algumas configurações comumente usadas.

1. Configuração comum do servidor H100

NVIDIA H100 está equipado com o motor Tensor Core e Transformer de quarta geração (precisão FP8), que pode fornecer velocidade de treinamento 9 vezes maior para modelos multi-especialistas (MoE) em comparação com a geração anterior. Ao combinar o NVlink de 4ª geração que oferece interconexão GPU a GPU de 900 GB/s, sistemas de switch NVLINK que aceleram as comunicações por GPU entre nós, PCIe 5.0 e software NVIDIA Magnum IO™, ele oferece tudo, desde pequenas empresas até grandes empresas. clusters de GPU unificados Escalabilidade eficiente.

Servidores acelerados equipados com H100 podem fornecer potência de computação correspondente e aproveitar a largura de banda de memória de 3 TB/s do NVLink e NVSwitch e a escalabilidade por GPU para lidar com análise de dados com alto desempenho e suportar grandes conjuntos de dados por meio de expansão. Ao combinar NVIDIA Quantum-2 InfiniBand, software Magnum IO, Spark 3.0 acelerado por GPU e NVIDIA RAPIDS™, as plataformas de data center NVIDIA podem acelerar essas grandes cargas de trabalho com excelente desempenho e eficiência.

Processador: Intel Xeon Platinum 8468 48C 96T 3,80 GHz 105 MB 350 W *2

Memória: Memória dinâmica de acesso aleatório 64 GB DDR5 4800 MHz * 24

Armazenamento: Unidade de estado sólido de 3,2 TB U.2 PCIe de 4ª geração*4

GPU:Nvidia Vulcan PCIe H100 80GB *8

Plataforma: HD210 *1

Resfriamento: sistema de resfriamento integrado de refrigeração líquida CPU + GPU * 1

Rede: Adaptador de porta única NVIDIA IB 400 Gb/s*8

Fonte de alimentação: fonte de alimentação redundante de alta eficiência de 2.000 W (2 + 2) * 1

2. Configurações comuns do servidor A800

O poder de computação de aprendizagem profunda do NVIDIA A800 pode atingir 312 teraFLOPS (TFLOPS). Seu treinamento de aprendizado profundo de operações de ponto flutuante de Tensor por segundo (FLOPS) e inferência de Tensor de trilhões de operações por segundo (TOPS) são 20 vezes maiores que as GPUs NVIDIA Volta. O uso do NVIDIA NVLink oferece o dobro do rendimento da geração anterior. Quando combinada com NVIDIA NVSwitch, essa tecnologia interconecta até 16 GPUs A800 e aumenta velocidades de até 600 GB/s para excelente desempenho de aplicativos em um único servidor. A tecnologia NVLink pode ser aplicada no A800: a GPU SXM é conectada através da placa-mãe do servidor HGX A100 e a GPU PCIe pode conectar até 2 GPUs através da ponte NVLink.

CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

Memória: DDR4 3200 64G *32

Disco de dados: 960G 2,5 SATA 6Gb R SSD *2

Disco rígido: SSD 3,84T 2,5-E4x4R *2

Rede: placa de rede de fibra óptica 10G de porta dupla (incluindo módulo)*1

          Placa de rede de fibra óptica sem módulo 25G SFP28 de porta dupla (MCX512A-ADAT) * 1

     GPU:HV HGX A800 8-GPU 8OGB *1

     Fonte de alimentação: módulo de potência de 3500 W * 4

     Outros: módulo óptico multimodo 25G SFP28 * 2

     Placa HCA HDR 200G de porta única (Modelo: MCX653105A-HDAT) *4

       Placa RAID de 8 portas SAS de 2 GB e 12 Gb*1

    Cabo de alimentação 16A padrão nacional 1,8m *4

       Trilho de suporte * 1

       A placa-mãe reserva interface PCIE4.0x16*4

       Suporte 2 M.2 *1

       Garantia original de fábrica 3 anos*1

3. Configurações comuns do servidor A100

A GPU NVIDIA A100 Tensor Core pode alcançar excelente aceleração em diferentes escalas para IA, análise de dados e cenários de aplicativos HPC, facilitando efetivamente data centers elásticos de alto desempenho. A100 usa arquitetura NVIDIA Ampere, que é o motor da plataforma de data center NVIDIA. O A100 oferece desempenho até 20x melhor que a geração anterior e pode ser particionado em sete instâncias de GPU para se ajustar dinamicamente às novas necessidades. Disponível em versões de memória de 40 GB e 80 GB, o A100 80 GB duplica a memória da GPU e oferece largura de banda de memória ultrarrápida (mais de 2 terabytes por segundo [TB/s]) para lidar com modelos e conjuntos de dados muito grandes.

CPU:Intel Xeon Platinum 8358P_2,60 GHz_32C 64T_230W *2

RAM: memória de servidor DDR4 RDIMM de 64 GB * 16

SSD1: unidade de estado sólido SATA de 480 GB e 2,5 polegadas*1

SSD2: unidade de estado sólido NVMe de 3,84 TB e 2,5 polegadas*2

GPU:NVIDIA TESLA A100 80G SXM *8

Placa de rede 1: placa de rede de porta dupla 100G IB Mellanx * 2

Placa de rede 2: placa de rede de porta dupla 25G CX5 * 1

4. Configurações comuns do servidor H800

H800 é o processador de nova geração da NVIDIA, baseado na arquitetura Hopper, que apresenta uma melhoria significativa na eficiência para tarefas como sistemas de recomendação profunda, modelos de linguagem de IA em grande escala, genômica e gêmeos digitais complexos. Comparado com o A800, o desempenho do H800 foi melhorado 3 vezes, e a largura de banda da memória também foi significativamente melhorada, atingindo 3 TB/s.

Embora o H800 não seja o mais potente em termos de desempenho, devido às restrições dos EUA, o H100 mais potente não pode ser fornecido ao mercado chinês. Alguns membros da indústria disseram que, em comparação com o H100, o H800 é principalmente diferente na taxa de transmissão. Comparado com a geração anterior A100, o H800 ainda é um pouco menor na taxa de transmissão, mas em termos de poder de computação, o H800 é três vezes maior que o A100.

CPU: Processador Intel Xeon Platinum 8468, 48C64T, cache de 105 M 2,1 GHz, 350 W * 2

Memória: DIMM RECC DDR4 de 64 GB e 3200 MHz *32

Disco rígido do sistema: Intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

Rede GPU: NVIDIA 900-9x766-003-SQO PCle 1 porta IB 400 OSFP Gen5 *8

Rede de armazenamento: IB 200 GbE de porta dupla *1

Placa de rede: placa de interface de rede 25G porta dupla * 1

5. Configurações comuns do servidor A6000

CPU: AMD EPYC 7763 64C 2,45 GHz 256 MB 280 W * 2

Memória: 64GB DDR4-3200 ECC REG RDIMM*8

Unidade de estado sólido: SSD SATA de 2,5" e 960 GB com uso intensivo de leitura*1

Disco de dados: HDD SATA de 3,5" 10 TB 7200 RPM*1

GPU:NVIDIA RTX A6000 48GB*8

plataforma:

O servidor GPU 4U montado em rack suporta dois processadores AMD EPYC série 7002/7003, suporta TDP de até 280 W, suporta até 32 slots de memória e suporta 8 compartimentos de disco rígido SAS/SATA/SSD de 3,5/2,5 polegadas com troca a quente (incluindo 2 slots híbridos NVMe), placa externa SAS ou RAID opcional, suporta vários modos RAID, interface de gerenciamento IPMI independente, slot 11xPCIe 4.0.

Fonte de alimentação redundante de titânio de 2.200 W (2+2) (96% de eficiência de conversão), sem unidade óptica, incluindo trilhos

6. Configurações comuns do servidor AMD MI210

CPU: AMD EPYC 7742 64C 2,25 GHz 256 MB 225 W * 2

Memória: 64GB DDR4-3200 ECC REG RDIMM*8

Unidade de estado sólido: SSD SATA de 2,5" e 960 GB com uso intensivo de leitura*1

Disco de dados: HDD SATA de 3,5" 10 TB 7200 RPM*1

GPU:AMD MI210 64GB 300W *8

plataforma:

O servidor GPU 4U montado em rack suporta dois processadores AMD EPYC série 7002/7003, suporta TDP de até 280 W, suporta até 32 slots de memória e suporta 8 compartimentos de disco rígido SAS/SATA/SSD de 3,5/2,5 polegadas com troca a quente (incluindo 2 slots híbridos NVMe), placa externa SAS ou RAID opcional, suporta vários modos RAID, interface de gerenciamento IPMI independente, slot 11xPCIe 4.0.

Fonte de alimentação redundante de titânio de 2.200 W (2+2) (96% de eficiência de conversão), sem unidade óptica, incluindo trilhos

7. Configurações comuns do servidor AMD MI250

CPU: AMD EPYC™ 7773X 64C 2,2 GHz 768 MB 280 W *2

Memória: 64GB DDR4-3200 ECC REG RDIMM*8

Unidade de estado sólido: SSD SATA de 2,5" e 960 GB com uso intensivo de leitura*1

Disco de dados: HDD SATA de 3,5" 10 TB 7200 RPM*1

GPU:AMD MI250 128GB 560W *6

plataforma:

O servidor GPU 4U montado em rack suporta dois processadores AMD EPYC série 7002/7003, suporta TDP de até 280 W, suporta até 32 slots de memória e suporta 8 compartimentos de disco rígido SAS/SATA/SSD de 3,5/2,5 polegadas com troca a quente (incluindo 2 slots híbridos NVMe), placa externa SAS ou RAID opcional, suporta vários modos RAID, interface de gerenciamento IPMI independente, slot 11xPCIe 4.0.

Fonte de alimentação redundante de titânio de 2.200 W (2+2) (96% de eficiência de conversão), sem unidade óptica, incluindo trilhos

Acho que você gosta

Origin blog.csdn.net/LANHYGPU/article/details/132400499
Recomendado
Clasificación