Uma nuvem, vários núcleos, o próximo desafio de engenharia para a transformação inteligente

Ao entrar em 2023, a digitalização industrial e a transformação e modernização inteligentes entraram na fase de implementação de engenharia em grande escala. De acordo com o "Relatório de Pesquisa sobre o Desenvolvimento da Economia Digital da China (2023)" da Academia Chinesa de Tecnologia da Informação e Comunicação, a economia digital foi responsável por 41,5% do PIB do meu país, o que equivale à proporção da indústria secundária no país economia. Com a melhoria da digitalização industrial e da inteligência, os serviços de potência computacional tornaram-se cada vez mais a base da economia digital. A Academia Chinesa de Tecnologia da Informação e Comunicação estima que cada 1 yuan investido em poder de computação irá gerar 3 a 4 yuans no crescimento económico do PIB.

O chamado serviço de poder computacional é uma indústria de poder computacional baseada em poder computacional diversificado, conectado à rede de poder computacional e com o objetivo de fornecer poder computacional efetivo. A Academia Chinesa de Tecnologia de Informação e Comunicação apontou que a forma atual de fornecimento de serviços de energia de computação é principalmente serviços em nuvem. Ao mesmo tempo, a forma de fornecimento baseada em tarefas de vários poderes de computação, como supercomputação, computação inteligente e computação social ociosa o poder também está em processo de exploração e experimentação ativa. Como sistema operacional para o mundo digital, a computação em nuvem está coordenando a supercomputação, a computação inteligente e a computação geral e se tornando a principal interface para a produção de energia computacional.

Os chips são a base do poder da computação. A fim de resolver a situação atual de múltiplos núcleos no processo de construção de poder de computação, o conceito "uma nuvem, múltiplos núcleos" ganhou gradualmente atenção generalizada. Como um dos principais fornecedores de nuvem privada na China, Zhang Dong, cientista-chefe da Inspur Cloud, enfatizou na China Computing Power Conference de 2023 que “uma nuvem, vários núcleos” se tornará um dos principais recursos da plataforma de computação em nuvem. não é apenas a integração de núcleos e nuvens, é também a sinergia de plataforma + ecologia. "Uma nuvem, vários núcleos" resolverá efetivamente os desafios de engenharia no processo de transformação inteligente e ajudará os usuários governamentais e empresariais a obter inteligência sustentável com poder computacional diversificado.

O poder da computação se torna a nova infraestrutura inteligente

A explosão de grandes modelos em 2023 colocará a infraestrutura computacional na vanguarda das novas infraestruturas. De acordo com o relatório de análise "AI and Compute" divulgado pela OpenAI, desde 2012, os requisitos de poder de computação das aplicações de treinamento de IA dobraram a cada 3,4 meses. De 2012 até o presente, o poder de computação da IA ​​aumentou mais de 300.000 vezes. De acordo com a OpenAI, o consumo total de poder computacional do ChatGPT é de aproximadamente 3.640PF-dias, o que equivale a três vezes o poder computacional total de uma megacidade atual.

De acordo com o "Relatório de avaliação de desenvolvimento de poder de computação de inteligência artificial da China 2022-2023", divulgado conjuntamente pela IDC e Inspur Information, a IDC prevê que a escala do poder de computação inteligente da China continuará a crescer rapidamente. Espera-se que até 2026, a escala de O poder de computação inteligente da China atingirá 1271,4EFLOPS.A taxa composta anual de crescimento atingiu 52,3%, e a taxa composta de crescimento da escala geral de poder de computação durante o mesmo período foi de 18,5%. No investimento em energia computacional, o investimento em energia computacional inteligente urbana tornou-se um apoio importante para promover o desenvolvimento da economia digital regional.As cinco principais indústrias com maior penetração de aplicações da indústria de inteligência artificial da China em 2022 são Internet, finanças, governo, telecomunicações e fabricação.A penetração da IA ​​na indústria aumentou significativamente.

(Zhang Dong, cientista-chefe da Inspur Yunhai)

Zhang Dong, cientista-chefe da Inspur Yunhai, enfatizou que o futuro é uma questão de competição inteligente e que devemos passar da informatização para a inteligência, caso contrário ficaremos completamente para trás em relação ao desenvolvimento dos tempos, e o centro de computação inteligente é a nova infraestrutura do futuro. A importância da nova infra-estrutura não é apenas fornecer serviços comerciais, mas também servir como serviços de infra-estrutura social de bem-estar público para as cidades.Além de atender às necessidades de computação inteligente específicas de tarefas, como o treinamento de grandes modelos, também pode abrir recursos de computação para a sociedade. Desta forma, os talentos inteligentes e a ecologia podem ser cultivados extensivamente.

Na China Computing Power Conference de 2023, a Inspur Information demonstrou seu atual centro de computação inteligente líder do setor. O centro de computação inteligente é um centro de computação inteligente pré-fabricado e modular que integra computação, armazenamento, rede e programação de energia de computação. Abrange diferentes nós de computação e é compatível com CPUs nacionais e estrangeiras convencionais e chips de aceleração heterogêneos. Pode suportar automático Para diversas aplicações como direção, biofarmacêutica, AIGC e fabricação inteligente, esse conjunto de data centers pode ser entregue em duas semanas. Já foi implantado em Jinan, Nanjing, Suzhou e outras regiões, proporcionando a construção de novas infraestruturas inteligentes regionais. Novas ideias , novos caminhos.

Além do poder da computação: sistema operacional em nuvem padronizado

Assim como os PCs daquela época, a chave para alcançar “um PC em todas as mesas do mundo” reside na compatibilidade com diferentes ecossistemas de software e hardware em vários países. Atualmente, a principal interface de saída externa de diferentes poderes de computação são os serviços em nuvem, portanto, melhorar a compatibilidade dos sistemas operacionais em nuvem é a chave para alcançar a inclusão, a onipresença e a padronização dos serviços de poder de computação. Com o desenvolvimento da IA, estamos evoluindo de um sistema de computação centrado na CPU para um sistema de computação no qual coexistem GPU, DPU, XPU e outros chips de computação acelerada.Como tornar o sistema operacional em nuvem compatível com uma variedade de chips e conjuntos de instruções e adaptar-se a vários O software de nível superior se torna o próximo desafio.

Zhang Dong, cientista-chefe da Inspur Cloud, enfatizou que "uma nuvem, vários núcleos" deve resolver os problemas de gerenciamento de múltiplas nuvens causados ​​pela coexistência de diferentes tipos de chips e formar verdadeiramente uma nuvem. "Uma nuvem, vários núcleos" se tornará um elo fundamental na cadeia da indústria de TI. Gerenciará vários chips e sistemas operacionais subjacentes na extremidade inferior, será compatível com vários tipos de máquinas virtuais, contêineres, bancos de dados e middleware no meio final, e se adaptar a vários tipos de máquinas virtuais, contêineres, bancos de dados e middleware na extremidade superior.Aplicativos e software nativos semelhantes à nuvem se tornarão um dos principais recursos das futuras plataformas de computação em nuvem.

Como todos sabemos, o software de aplicação de negócios ou serviços SaaS precisam enfrentar uma variedade de ambientes de combinação de software e hardware, como chips, sistemas operacionais, bancos de dados, etc., e precisam ser desenvolvidos, testados em diferentes ambientes e verificados e iterados em negócio real. Na era multi-core de hoje, à medida que vários países e fabricantes continuam a desenvolver seus próprios chips, a gama de processadores opcionais está se tornando cada vez mais ampla e os requisitos de adaptação para sistemas operacionais em nuvem estão cada vez mais altos. No entanto, cada fabricante de chips tem seus próprios padrões e espera promover seu próprio ecossistema.Como resultado, o desempenho de cada chip de servidor no data center em nuvem é desigual, a experiência do usuário é difícil de ser consistente e os efeitos do aplicativo são amplamente diferentes, formando assim ilhas de poder computacional.

Portanto, o objetivo final de "uma nuvem, vários núcleos" é apoiar a comutação de baixo custo ou a comutação gratuita de serviços de usuário entre processadores de diferentes arquiteturas. Em outras palavras, é necessário alcançar o desacoplamento completo das aplicações e da arquitetura do chip para suportar a comutação equivalente de aplicações entre processadores de diferentes arquiteturas. Claro, isso primeiro requer uma medição unificada do poder de computação de diferentes chips. Por exemplo, quantas GPUs de um fabricante podem substituir igualmente o poder de computação das GPUs de outro fabricante requer um consenso da indústria. Em segundo lugar, também requer hardware, nuvem e A colaboração entre o upstream e o downstream da cadeia industrial, como as aplicações, permite a comutação não consciente entre arquiteturas no nível da aplicação; em terceiro lugar, para ferramentas de desenvolvimento, ainda não é possível ser completamente independente da arquitetura, seja uma aplicação escrita em Python ou Java, ou mais ou menos A maioria deles está relacionada à arquitetura, por isso é necessário promover o desenvolvimento de aplicativos para ser independente da arquitetura e retirar chamadas relacionadas ao nível do sistema operacional em nuvem para processamento; quarto, a separação de dados e aplicativos é isolar completamente a camada de dados e alcançar independência de arquitetura.

No geral, "uma nuvem e vários núcleos" parece simples, mas é um enorme desafio de engenharia. O uso adequado de "uma nuvem e vários núcleos" pode minimizar o risco de seleção de rota técnica e melhorar muito a estabilidade e a estabilidade dos negócios. A flexibilidade de transformação, mas para realmente realizar "uma nuvem, vários núcleos" é necessário que toda a indústria e ecossistema tenham uma crença e determinação comuns e implementem "uma nuvem, vários núcleos" de padrões, arquitetura, avaliação, testes, desenvolvimento e outros aspectos no futuro , iremos realmente quebrar as ilhas de poder computacional de diferentes arquiteturas e realizar a interconexão entre diferentes arquiteturas, em vez de um modelo simples de gerenciamento de pools de recursos de diferentes arquiteturas de chips.

Integração de poder de computação: três etapas para “uma nuvem, vários núcleos”

O sistema operacional em nuvem é compatível com diferentes chips, arquiteturas de chips e softwares aplicativos. Este é um projeto enorme e ecológico. Na história da tecnologia de TI empresarial, seja o software de virtualização da VMware ou o banco de dados da Oracle, a competitividade central oculta do software de TI empresarial é, na verdade, ampla compatibilidade. Mas assim como projetos de compatibilidade como VMware e Oracle são liderados por um fabricante e levam muitos anos de tempo e investimento para serem realizados gradualmente. Mais importante ainda, quando a liderança de mercado de software como VMware e Oracle for reconhecida, todo o ecossistema fornecerá ativamente compatibilidade com softwares como VMware e Oracle.

Para um sistema operacional em nuvem com um curto histórico de desenvolvimento, é impossível alcançar verdadeiramente ampla compatibilidade em um curto período de tempo. A Inspur Information é um dos defensores ativos de "uma nuvem, vários núcleos". Como fabricante terceirizado independente de chips, nuvens e ecossistemas, ela propõe "orientado para aplicativos, centrado no sistema", "desacoplamento em camadas, padrões abertos" ", conceito de desenvolvimento de "inovação iterativa, evolução contínua" de uma nuvem e vários núcleos, em particular, uma estratégia de promoção em três estágios é proposta pragmaticamente para atingir o objetivo final de "uma nuvem e vários núcleos".

A chamada estratégia de promoção de "três estágios" significa: no primeiro estágio, o gerenciamento unificado de pool de nós heterogêneos é realizado e os aplicativos de arquitetura cruzada são realizados por meio de migração offline, comutação manual, etc. gerenciamento e visão unificada". Resolva o problema de "uma nuvem com vários núcleos"; no segundo estágio, o desacoplamento em camadas é alcançado na camada de recursos, camada de plataforma e camada de aplicativo, e os fabricantes trabalham juntos para obter comutação suave e escalabilidade elástica de aplicativos. Trata-se de "migração de negócios, camadas "Desacoplamento, atualização de arquitetura" para resolver o problema do uso "fácil" de vários núcleos em uma nuvem; no terceiro estágio, o upstream e o downstream da cadeia da indústria são coordenados para criar padrões , uma ecologia comum e uma solução verticalmente integrada.Este é "padrão de potência de computação definido por software, multi-core full-stack" resolve o problema de "otimizar" multi-core em uma nuvem.

Zhang Dong disse que ainda estamos no primeiro estágio de "uma nuvem, vários núcleos". Muitos fabricantes alcançaram mais ou menos o primeiro estágio de "uma nuvem, vários núcleos" em vários graus. O próximo passo é enfrentar o segundo estágio.estágio, ou seja, o desacoplamento hierárquico é alcançado na camada de recursos, na camada de plataforma e na camada de aplicação. Para tanto, a Inspur Information lançou recentemente o protótipo Fusion Architecture 3.0, que consegue desacoplamento completo de recursos de hardware no nível do servidor. A Arquitetura Convergente 3.0 alcançou um avanço na dissociação e agrupamento completo dos principais recursos de TI, como recursos de computação, recursos de armazenamento, recursos de memória e recursos de aceleração heterogêneos, e pode suportar múltiplas plataformas de processador de uso geral e GPUs, FPGAs, DPUs heterogêneos, etc. Acelere a computação colaborativa de unidades e realize o agendamento colaborativo e dinâmico de recursos por meio da definição de software.

O protótipo Fusion Architecture 3.0 quebra o conceito anterior de design "centrado na CPU". Ele começa na perspectiva geral e é centrado no sistema. Através do desacoplamento de hardware, ele transforma computação, memória, armazenamento e outros recursos heterogêneos em pools de recursos independentemente escaláveis. Usuários pode expandir livremente os recursos de acordo com as necessidades da aplicação. Por exemplo, o treinamento de modelos grandes requer mais memória de vídeo, mas a capacidade de memória de vídeo da placa GPU é limitada.No design da Fusion Architecture 3.0, toda a memória e memória de vídeo do sistema podem ser abertas, expandindo bastante o espaço disponível. memória para treinamento de modelos grandes e também reduz a demanda por GPU.

O Incloud OS está passando pela segunda fase de melhorias para “uma nuvem, múltiplos núcleos”, promovendo especialmente a dissociação na camada de plataforma e na camada de aplicação. Como tecnologia central do Incloud OS, de acordo com o relatório do Gartner, o Incloud Sphere, o sistema de virtualização de servidores em nuvem, ficou em primeiro lugar entre as marcas nacionais em participação de mercado na China por dois anos consecutivos e atualmente está entre os quatro primeiros em participação no mercado global. InCloud Sphere pode realizar o pool de recursos de computação para vários chips heterogêneos, como x86 e ARM.A versão mais recente pode fornecer simultaneamente recursos de gerenciamento unificado para processadores de quatro arquiteturas diferentes, reduzindo ainda mais a dificuldade para os usuários manterem a infraestrutura de diferentes arquiteturas.

A fim de criar um benchmark de referência de plataforma em nuvem com "uma nuvem, vários núcleos" como núcleo, o Yunhai OS concluiu recentemente o primeiro teste de benchmark SPEC Cloud do setor para o cenário "uma nuvem, vários núcleos" e combinou três tipos de nós de processador No teste de cluster de implantação, indicadores como escalabilidade relativa e tempo médio de configuração da instância atingiram o nível líder mundial, verificando a alta eficiência, alto desempenho e alta escalabilidade do Yunhai OS em cenários de arquitetura de processador cruzado de aplicativos de negócios. Ao mesmo tempo, a Inspur Information participou ativamente do "Sistema Padrão de Capacidade Técnica Multi-core One Cloud" liderado pela Academia Chinesa de Tecnologia de Informação e Comunicação, e o Yunhai OS passou na avaliação de capacidade da plataforma IaaS Multi-core One Cloud com excelentes resultados. e obteve a certificação de mais alto nível de “Nível Avançado”.

A busca persistente da Inspur Information por “uma nuvem, vários núcleos” vem das necessidades reais dos clientes. O Yunhai OS é o primeiro do setor a oferecer suporte a “uma nuvem, vários núcleos” e possui vasta experiência na implementação de aplicações industriais. A partir de 2018, a Inspur Information confiou no Yunhai OS para ajudar centenas de clientes nos setores governamental, financeiro, energético, de transporte e outros setores a construir uma nuvem industrial "uma nuvem, vários núcleos".Por exemplo, o Yunhai OS ajudou uma província a construir o maior escala e mais diversos tipos de chips na China.A maior plataforma de nuvem do governo provincial, cobrindo quase 2.000 servidores com três arquiteturas de processador e integrando totalmente software e hardware básicos, plataformas de nuvem, sistemas de segurança, sistemas de gerenciamento de operação e manutenção, sistemas de aplicativos, etc.

No geral : "Uma nuvem, vários núcleos" é o caminho para os serviços de computação e sistemas operacionais em nuvem lidarem com a turbulência do cenário global de chips e a incerteza da cadeia de suprimentos. É também o caminho para os sistemas operacionais em nuvem baseados em código aberto tecnologia para se desenvolver até um certo estágio de maturidade. Em comparação com o software tradicional de virtualização de servidores, o sistema operacional em nuvem encontra um ambiente multi-core mais complexo e precisa enfrentar múltiplas rotas de tecnologia de chips maduras e em desenvolvimento ao mesmo tempo, o que impõe requisitos mais elevados para a maturidade do produto do sistema operacional em nuvem. Os requisitos também forçam os fabricantes de sistemas operacionais em nuvem a realizar inovações originais e embarcar no caminho da inovação independente. “Uma nuvem, múltiplos núcleos” também garantirá o desenvolvimento sustentável da inteligência da China a longo prazo e estabelecerá a competitividade central na competição global de inteligência. (Texto/Ningchuan)

Acho que você gosta

Origin blog.csdn.net/achuan2015/article/details/132459539
Recomendado
Clasificación