Analisando o armazenamento de objetos totalmente em flash

1 preâmbulo

Começando com o armazenamento de arquivos, começamos a definir o armazenamento de informações:

O entendimento da maioria das pessoas sobre armazenamento começa com os arquivos. Os arquivos contêm informações, podem ser lidos e modificados aleatoriamente, os arquivos são organizados por diretório e assim por diante.

O processo de atualização e evolução do sistema de armazenamento:

Com o início do mundo da informação, a quantidade de dados de alto valor está aumentando rapidamente, e a demanda por sistemas de armazenamento de dados também está em constante mudança, o que promove a evolução contínua dos sistemas de armazenamento.

Sistemas de armazenamento de arquitetura distribuída em diferentes cenários:

Depois de entrar na era da Internet e da IA, a taxa de crescimento do volume de dados é muito mais rápida do que a taxa de crescimento dos recursos de hardware. É inevitável que a arquitetura distribuída substitua a arquitetura centralizada. Um grande número de sistemas de armazenamento de arquitetura distribuída adequados para diferentes cenários brotaram como cogumelos.

Em geral, a evolução dos sistemas de armazenamento é determinada pelos seguintes fatores:

Para medir a qualidade de um sistema de armazenamento, devemos partir dos seguintes aspectos:

2 Introdução ao armazenamento de objetos

Resumindo, o armazenamento de objetos é um armazenamento baseado em chave/valor . Logicamente, o armazenamento de objetos pode ser considerado como uma tabela de chave/valor infinita.

Muitos alunos estão familiarizados com caches baseados em kv, como redis e memcache. Quando kv puder ser totalmente persistido, ele terá o protótipo de armazenamento de objetos.

O banco de dados baseado em kv também é um tipo de armazenamento de objeto, mas a capacidade de armazenamento é limitada e é limitada ao armazenamento de metadados.

O armazenamento de objetos em um sentido geral é um sistema de armazenamento para armazenamento de dados.Ele possui boas capacidades de expansão horizontal em capacidade e desempenho e é adequado para armazenar grandes quantidades de dados não estruturados.

A razão para o armazenamento de objetos é atender aos requisitos de armazenamento de uma grande quantidade de dados não estruturados - a quantidade de dados é muito grande, o custo de usar o armazenamento tradicional é muito alto e a complexidade de gerenciamento e uso causada pela enorme expansão de a escala também é grandemente aumentada. Portanto, há uma necessidade urgente de um sistema de armazenamento de baixo custo que seja fácil de implantar, gerenciar e usar, fácil de escalar, adequado para dados não estruturados, e este é o armazenamento de objetos.

Da mesma forma, o principal objetivo do armazenamento de objetos é o acesso simples e de baixo custo e o gerenciamento de grandes quantidades de dados não estruturados . Quando os requisitos de armazenamento de objetos e armazenamento em nuvem são combinados, o armazenamento de objetos é dotado com a missão de gerenciamento do ciclo de vida dos dados em nuvem.

O acima é a origem e direção de desenvolvimento do armazenamento de objetos.

3 Recursos e vantagens do armazenamento de objetos

Fácil de usar, ampla gama de aplicações

Acesso Restful API padrão (e SDK baseado em API), independente do sistema operacional/plataforma, acesse dados a qualquer hora e em qualquer lugar (seja uma máquina virtual, contêiner ou sistema incorporado, desde que haja uma rede, ele pode ser acessado)

A organização dos dados é plana e simples, essencialmente acessando (valor, atributo) por meio de chave. Com base nisso, ele suporta a capacidade de ler e gravar o valor de acordo com a chave , o atributo de varredura de acordo com o intervalo de chaves, etc. A capacidade de gerenciamento de dados é simples e poderosa.No caso de uma grande quantidade de dados, o desempenho do gerenciamento de metadados excede em muito o do sistema de arquivos.

armazenamento em nuvem natural

1) AWS S3 é o protocolo de interface de armazenamento de objetos mais amplamente compatível e é um padrão comum prático para protocolos de interface de armazenamento de objetos. O S3 é definido para oferecer suporte ao armazenamento em nuvem e, naturalmente, oferece suporte à nuvem nativa.

2) Gerenciamento do ciclo de vida de dados multilocatário na nuvem (autorização; controle de acesso; compactação; criptografia; rótulo; auditoria de log; conformidade regulatória; WORM; cota de dados; QoS; multiversão; camadas; replicação remota; ...) .

3) O contêiner acessa instantaneamente o armazenamento de objetos por meio do S3 sem montagem.

4) Boa escalabilidade, fornecimento flexível de espaço de armazenamento e desempenho sob demanda (API declarativa) e um enorme limite superior de fornecimento.

5) Tolerância a falhas e autocorreção.

6) Operação e manutenção automatizadas.

baixo custo

Os dados são somente leitura e não podem ser modificados, sob essa premissa, o sistema de armazenamento pode ser otimizado para reduzir custos.

Implantação e gerenciamento simples, baixo custo de manutenção.

4 Limitações do armazenamento de objetos

Restrições de intervalo de tipo de dados aplicáveis

O tipo de dados aplicável é dados não estruturados, não dados estruturados que precisam ser modificados aleatoriamente.

Compatibilidade de interface de acesso

Ele só pode ser acessado através da interface Restful e não é compatível com Posix/Nas. A maioria dos aplicativos antigos deve passar pelo gateway Posix/Nas se quiserem aplicar o armazenamento de objetos.

limitações de desempenho

Alta latência de acesso (causada pela pilha de software de armazenamento em nuvem, separação da camada de protocolo e camada de armazenamento, etc.).

Na seção anterior "Os prós e contras do armazenamento de objetos" , apresentamos os elementos que impulsionam a evolução dos sistemas de armazenamento, a causa, a direção do desenvolvimento e as características do armazenamento de objetos. Nesta seção, descrevemos a aplicação do armazenamento de objetos em combinação com os cenários de uso do armazenamento de objetos.

Regra nº 1 -- Armazenamento de objetos e dados não estruturados --

Sabemos que o armazenamento de objetos nasceu para resolver os pontos problemáticos do armazenamento de dados não estruturados em grande escala. Portanto, o armazenamento de objetos é muito adequado para cenários em que um grande número de documentos, fotos e vídeos são armazenados e processados, incluindo mídia, backup/arquivo, vigilância por vídeo, dados de satélite/meteorológicos/geológicos, Internet das Coisas, big data, dados lagos, etc Os requisitos básicos desses cenários são o acesso e o processamento de uma grande quantidade de dados de documentos de baixo custo e alto desempenho.Ao mesmo tempo, a ênfase é diferente em termos de tamanho de arquivo, quantidade e desempenho de IOPS. Por exemplo, cenários de mídia, backup/arquivo e vigilância por vídeo geralmente são arquivos grandes, exigindo alto rendimento ; dados de satélite/meteorológicos/geológicos e cenários de Internet das Coisas podem ter um grande número de arquivos pequenos, exigindo alto desempenho para armazenamento e recuperação de um grande número de arquivos pequenos ; Os requisitos para cenários de big data e data lake são mais abrangentes, incluindo a capacidade de armazenar um grande número de arquivos pequenos, desempenho abrangente e recursos de acesso a dados heterogêneos .

Antes da aplicação em larga escala do armazenamento de objetos, a maioria dos dados não estruturados era armazenada em sistemas de armazenamento baratos e simples representados pelo NAS. O sistema de armazenamento de objetos deve considerar como ser compatível com o antigo sistema de armazenamento e o sistema de aplicativos. Durante um longo período de substituição do produto, o sistema de armazenamento de objetos recém-implantado deve ser capaz de se adaptar a dados e aplicativos novos e antigos. Isso requer gateways de armazenamento e sistemas de gerenciamento de armazenamento.

Tome como exemplo o armazenamento na indústria de vigilância por vídeo. A maioria dos sistemas de vigilância por vídeo mais antigos usa NAS para armazenar dados. Em comparação com os sistemas NAS, os sistemas de armazenamento de objetos têm muitas vantagens, como alta confiabilidade, boa escalabilidade, baixo custo, namespace global e fácil processamento de dados. No entanto, se você deseja substituir o armazenamento NAS pelo armazenamento de objetos sem modificar o sistema do aplicativo (suporta apenas o protocolo NAS), é necessário converter NAS em gateway de armazenamento de objetos. Ao mesmo tempo, o antigo sistema de armazenamento NAS e o novo sistema de armazenamento de objetos coexistirão por um período de tempo, exigindo gerenciamento unificado, importação de dados (armazenamento de objetos de importação de dados NAS) e outras funções.

Para usar o armazenamento de objetos na versão antiga do sistema de big data, também é necessário implantar o HDFS no gateway de objetos. Novas versões de sistemas de big data podem usar diretamente o armazenamento de objetos compatível com S3.

Regra nº 2 -- Armazenamento de objetos e a nuvem --

O armazenamento de objetos não apenas resolve o problema do armazenamento massivo não estruturado, mas também se torna o padrão do armazenamento em nuvem.

Com o desenvolvimento do armazenamento em nuvem até hoje, o principal objetivo é fornecer armazenamento ágil, altamente disponível, confiável e seguro para aplicativos em nuvem baseados em arquiteturas de contêineres e microsserviços.

Do ponto de vista da disponibilidade de dados e serviços, o armazenamento em nuvem tem as seguintes características:

confiabilidade extremamente alta

Em comparação com o armazenamento tradicional, os aplicativos em nuvem melhoraram muito os padrões de confiabilidade dos dados. Por exemplo, o padrão de confiabilidade do armazenamento em nuvem pública pode chegar a 99,99999999%

alta disponibilidade

Em comparação com o armazenamento tradicional, os aplicativos em nuvem têm padrões muito elevados de disponibilidade de serviço de armazenamento. Por exemplo, o padrão de disponibilidade de armazenamento em nuvem pública pode chegar a 99,995%

excelente elasticidade

Armazenamento sob demanda - em vez de pré-alocar grandes quantidades de recursos, eles são provisionados dinamicamente

Salve o quanto quiser - o aplicativo pode armazenar quantos dados quiser, sem modificar o programa, ampliar a capacidade ou interromper o serviço

Elasticidade de desempenho - desempenho linear, expansão horizontal ágil; durante o período de pico dos negócios, mais recursos de serviço são necessários para serem iniciados rapidamente, as solicitações de negócios retrocedem e os recursos são recuperados

Multi inquilino

A alocação de recursos de inquilinos pode ser realizada de acordo com a política para obter segurança, disponibilidade e isolamento de desempenho de diferentes dados de inquilinos

Do nível de aplicativo de dados, o armazenamento em nuvem gerencia todo o ciclo de vida dos dados.

geração de dados

Importe de fora da nuvem ou gere na nuvem

compressão, desduplicação

Cota, QoS

Segurança de dados, compartilhamento, recuperação

Conformidade de segurança (várias versões; criptografia; auditoria de log, conformidade regulatória; WORM...)

Autorização, Controle de Acesso

pesquisa de rótulo

fluxo de dados

vida útil

em camadas

Copiar e migrar

O armazenamento em nuvem inclui armazenamento em blocos, armazenamento de arquivos e armazenamento de objetos. Entre eles, apenas o armazenamento de objetos está mais alinhado com as especificações nativas da nuvem e pode alcançar melhor a confiabilidade, disponibilidade, elasticidade, multilocação e gerenciamento de ciclo de vida completo dos dados de armazenamento em nuvem. O armazenamento de objetos é a base e o futuro do armazenamento em nuvem.

Regra nº 3 -- Object Storage e Data Lakes --

O uso de grandes quantidades de armazenamento de dados é principalmente análise de dados. Análise de dados, aprendizado de máquina e inteligência baseada em big data são a direção da digitalização futura. No entanto, o atual sistema de processamento de big data apresenta problemas como fontes de dados dispersas e sistemas de informação isolados, que levam a dificuldades e ineficiências no processamento de dados. O data lake nasceu para resolver o problema das ilhas de informação isoladas e processar dados de forma unificada e eficiente.

Um data lake é um sistema arquitetônico. Por meio do data lake, dados massivos podem ser armazenados, processados e analisados de maneira rápida, segura e compatível; integração interativa orientada a dados com recursos de computação externos por meio de interfaces, para alcançar qualquer fonte, qualquer velocidade, qualquer escala, qualquer tipo de aquisição de dados, armazenamento e gerenciamento completo do ciclo de vida.

Com o data lake, o sistema de análise de dados não precisa alternar entre diferentes armazéns de dados e armazenamento de arquivos com frequência, nem precisa repetir a lógica de gravação, extração e carregamento, o que melhora muito a eficiência.

O armazenamento de data lakes depende do armazenamento de objetos compatível com S3. O S3 é a parte mais importante dos data lakes devido a seus poderosos recursos :

O Amazon Cloud Computing Services (AWS) claramente usa o armazenamento S3 como a base do data lake e o centro do fluxo de dados. O armazenamento de objetos compatível com S3 é a melhor escolha para armazenamento de data lake.

Na seção anterior " Cenários de uso do armazenamento de objetos ", apresentamos o uso de armazenamento de objetos em cenários como armazenamento de dados não estruturados em grande escala, armazenamento em nuvem, big data e data lakes.

Então, como é um bom produto de armazenamento de objetos? Como projetar e implementar? Nesta seção, analisamos e discutimos essas questões.

Por meio do estudo das duas primeiras seções, devemos entender as características e os elementos do armazenamento de objetos e, então, podemos traçar um esboço mais perfeito do armazenamento de objetos. Mas, na prática, muitas vantagens são difíceis de coexistir, ou não podem ser alcançadas em uma única etapa, e compensações devem ser feitas. Por exemplo, alto desempenho e baixo custo Geralmente, um aumento no desempenho acarretará um aumento no custo. Outro exemplo são as funções simplificadas e com todos os recursos. O recurso completo é amplamente aplicável, mas trará as consequências de muitos erros de software e manutenção difícil. Portanto, produtos de armazenamento de objetos com características diferentes têm públicos e escopos de aplicação diferentes.

Tome o armazenamento de objetos de código aberto MinIO como exemplo

A filosofia de design do MinIO é ser minimalista em arquitetura e compatível com S3 em função. É muito simples de instalar, implantar e usar o MinIO. Ao mesmo tempo, o MinIO é funcionalmente compatível com o S3 e é muito adequado para cenários de aplicativos nativos de nuvem de pequena escala . Com esses dois recursos principais, a comunidade de código aberto do MinIO é muito ativa e o MinIO é amplamente usado como um armazenamento de objetos leve e excelente.

Na verdade, o MinIO também possui deficiências óbvias, mas isso não impede seu uso em cenários nativos de nuvem de pequena escala.

A pranchinha do MinIO é limitada pela escalabilidade, escala e desempenho

Atualmente, outros produtos de armazenamento de objetos também têm vantagens e desvantagens em termos de funções, elasticidade, escala e desempenho. De um modo geral, eles são relativamente de grande escala (em relação a arquivos distribuídos, mas não de escala extremamente grande), de baixo custo , e desempenho médio. .

O objetivo principal do armazenamento de objetos é o processamento de dados em grande escala. Em termos de requisitos, ele não deve se limitar a cenários com arquivos grandes e alta latência. O armazenamento de objetos também deve ser competente para cenários que exigem alto IOPS e baixa latência, como aprendizado de máquina. Somente uma nova geração de produtos de armazenamento de objetos totalmente flash e de alto desempenho pode lidar com esse cenário.

Em seguida, vamos discutir os requisitos e recursos de uma nova geração de produtos de armazenamento de objetos de alto desempenho.

1 Requisito: Expandir as capacidades no cenário original e eliminar a expansão de curto prazo

novo Mercado

→ Armazenamento de dados não estruturados

Melhore a flexibilidade definida por software do produto

melhorar o desempenho

→ Armazenamento em nuvem (nuvem privada, nuvem híbrida, data lake)

Reduza o custo de dimensionamento enquanto aumenta a escalabilidade e o limite superior de escala

Melhore o desempenho para atender aos requisitos de processamento de dados de alto desempenho

O S3 é totalmente compatível, com recursos de gerenciamento de ciclo de vida completo de dados multilocatários

2 habilidades

→ Alta segurança, alta confiabilidade e alta disponibilidade de dados em um ambiente distribuído

Segurança, confiabilidade e disponibilidade de dados atendem aos padrões de armazenamento em nuvem

→ Expansão linear horizontal do volume de dados e desempenho

A elasticidade do volume de dados e o desempenho atendem aos padrões nativos e de armazenamento em nuvem

→ alto desempenho

Taxa de transferência, IOPS, latência e outros indicadores atendem aos padrões de processamento de dados de alto desempenho (como aprendizado de máquina)

→ baixo custo

Reduzir o custo total de propriedade do armazenamento de dados em larga escala (alta densidade, economia de energia verde, aumentar a vida útil da mídia de armazenamento de grande capacidade)

A questão central dos requisitos e recursos acima é como obter desempenho de alto nível e, ao mesmo tempo, oferecer suporte ao armazenamento elástico e de baixo custo de dados em escala ultralarga. Visando as questões centrais, analisamos os pontos-chave do projeto passo a passo.

3 pontos de design

→ Para obter o melhor desempenho, uma arquitetura de armazenamento totalmente flash deve ser usada para reduzir o atraso do fluxo de dados da pilha de software

Fluxo de dados de pilha de software (tendo como exemplo a gravação), incluindo processamento de camada de protocolo, camada de link (RPC e RDMA) e processamento de camada de armazenamento. O processamento da camada de armazenamento inclui cálculo de redundância de dados, alocação de recursos, gravação de dados e gravação de transações de metadados (metadados de recursos e metadados de objetos). A maioria dos gargalos e atrasos de IOPS ocorre na camada de armazenamento.

Para reduzir a latência da camada de armazenamento, o ponto mais crítico é o serviço de metadados distribuídos.

Os serviços de metadados devem ser distribuídos e escaláveis horizontalmente para suportar a expansão horizontal da capacidade e desempenho dos produtos de armazenamento.

Arquiteturas de serviço sem metadados, como Hash consistente, têm duas deficiências fatais e não são adequadas para sistemas distribuídos de grande escala. Primeiro, sem o recurso de consulta de intervalo de metadados, a consulta de intervalo será ampliada para todo o cluster, resultando em um desempenho de gerenciamento de metadados muito ruim em um sistema com um grande número de objetos. Em segundo lugar, o estado de reequilíbrio causado pelos requisitos de elasticidade do cluster é muito complicado, o que se desvia da intenção original do Hash sem estado.

De volta ao serviço de metadados. A camada de dados do serviço de metadados geralmente implementa replicação de cópia e fragmentação horizontal da coleção MVCC no protocolo Raft. A camada de interface implementa as transações. Essas questões dificultam muito a implementação de serviços de metadados de baixa latência, sendo necessário dominar e otimizar essas tecnologias centrais.

Além dos serviços de metadados de baixa latência, há outro ponto-chave, que é o agendamento de computação da pilha de software totalmente flash.

A pilha de software totalmente flash adota novas tecnologias de RDMA e NVMe , e o atraso da camada de armazenamento é bastante reduzido, o que não é mais um gargalo de desempenho. Pelo contrário, o cálculo e o agendamento em um ambiente de CPU multi-core não otimizado se tornará um desempenho gargalo sob concorrência extremamente alta. A pilha de software totalmente flash usa uma arquitetura de pipeline de microcomputação para eliminar as barreiras de desempenho do armazenamento em cache e agendamento da arquitetura NUMA da CPU multi-core, alcançando latência de computação extremamente baixa e alta simultaneidade.

→ Para oferecer suporte ao armazenamento flexível de dados em escala ultralarga, uma arquitetura totalmente distribuída deve ser adotada para aumentar a capacidade da mídia de armazenamento

Entre eles, o dimensionamento elástico de clusters de serviços distribuídos com estado é a principal dificuldade.

→ Alta segurança, alta confiabilidade e alta disponibilidade de dados em um ambiente distribuído

Atualmente, o QLC_SSD de grande capacidade de nível empresarial tem sido usado em sistemas de software de armazenamento totalmente flash. A pilha de software de armazenamento totalmente flash precisa resolver o problema de tempos de apagamento baixos de QLC_SSD. Se os problemas de GC, amplificação de gravação e nivelamento de desgaste de SSDs forem tratados no nível do cluster de armazenamento, podemos reduzir a taxa de amplificação de gravação e equilibrar o número de apagamentos e gravações para todos os SSDs no cluster. Não apenas podemos usar QLC_SSD com um baixo número de apagamentos, mas também aumenta consideravelmente a vida útil do SSD.

ZNS_SSD é um padrão para usar SSD de grande capacidade, reduzindo custos e consumo de energia. A pilha de software de armazenamento totalmente flash deve ser adaptada e suportar o uso de ZNS_SSD.

Para minimizar o custo de SSDs de grande capacidade, você pode usar a solução Open_Channel_SSD personalizada para colocar a camada FTL do SSD e a camada de correção de erros no lado do host, economizando o controlador DRAM e adaptando-se ao uso de partículas SSD baratas, o que reduz muito o SSD custo.

A pilha de software de armazenamento totalmente flash também pode economizar energia no agendamento de recursos de cluster e fazer pleno uso do status de economia de energia dos SSDs.

→ A contradição entre alto desempenho e baixo custo é atenuada pela camada de dados

A camada de dados quentes adota pilha de software totalmente flash de alto desempenho e NVMe_SSD de alto desempenho e preço elevado.

A camada de dados quentes e frios adota pilha de software all-flash comum e SSD barato de grande capacidade.

A camada de dados é transparente, inteligente e insensível a aplicativos.

4 Discussão do projeto

Por que propor uma arquitetura distribuída aparentemente perfeita em vez das compensações mencionadas acima?

Quando apresentamos o MinIO, discutimos as vantagens e desvantagens, com foco na simplicidade da arquitetura e das funções. Mas a demanda está crescendo.A flexibilidade e o alto desempenho da expansão horizontal do sistema de armazenamento de objetos tornaram-se os requisitos mais importantes no presente e no futuro e podem expandir um grande mercado, então nos concentramos nos dois aspectos mais difíceis. Armazenamento de nível empresarial com uma arquitetura totalmente flash distribuída.

5 Avenue Cloud FOSS introdução ao armazenamento de objetos distribuídos totalmente em flash

O Avenue Cloud FOSS é um sistema de armazenamento em nuvem que adota uma arquitetura all-flash distribuída avançada, visando acesso de longo prazo, confiável, ecológico, de baixo carbono e de alto desempenho a dados em escala ultralarga.

→ Arquitetura totalmente flash, desempenho ultra-alto, expansão linear horizontal do volume de dados e desempenho

latência em milissegundos

Cluster único, espaço de nível 100P, throughput de nível 100G, IOPS de um milhão de níveis

Expansão multicluster na mesma cidade e entre regiões

Replicação de dados entre zonas e recuperação de desastres

→ Verde e baixo carbono

Verde e economizador de energia (a maioria dos SSDs está em estado de baixo consumo de energia na maior parte do tempo, SSD de chip único <0,5 W).

O SSD tem uma longa vida útil e mais espaço disponível real (7% de reserva de GC não é necessária).

→ Confiabilidade a longo prazo

Independentemente de estar armazenado, ele garante a disponibilidade confiável de dados por mais de dez anos (proteção silenciosa contra erros de dados; mídia inteligente e inspeção de dados, varredura de integridade, recuperação de apagamento e migração de dados expirados).

Podemos ver que dois processos importantes estão ocorrendo e se desenvolvendo.

Um deles é a alternativa de armazenamento

Atualmente, a maioria dos dados não estruturados em nosso país são armazenados no antigo sistema de armazenamento NAS. Os sistemas de armazenamento NAS têm muitos problemas:

O armazenamento em nuvem (nuvem privada, nuvem híbrida) com armazenamento de objetos como núcleo supera o armazenamento NAS em todos os aspectos, como capacidade, escalabilidade, segurança e confiabilidade, desempenho, gerenciamento unificado, multilocação e gerenciamento do ciclo de vida dos dados. E o custo geral de uso é equivalente. Portanto, é inevitável que o armazenamento de objetos substitua o NAS e melhore a produtividade dos sistemas de aplicativos em vários setores. Claro, esse processo é gradual, acompanhado pelo uso de gateways de armazenamento e sistemas de gerenciamento.

O Big Data System 2.0 propõe o conceito de separação entre computação e armazenamento, e defende o uso de data lakes para gerenciar todo o processamento de dados de forma unificada. O armazenamento de big data está acelerando a mudança de HDFS para armazenamento de objetos (compatível com S3 ou Swift).

Em segundo lugar, o crescente mercado de armazenamento em nuvem

O armazenamento em nuvem em um sentido amplo inclui armazenamento distribuído de diferentes escalas, formando nuvem de ponta, nuvem privada, nuvem híbrida e nuvem pública.

Atualmente, a economia digital impulsionada pelos dados está se tornando um novo motor para o desenvolvimento econômico do meu país, e os dados são valiosos. No entanto, o valor dos dados precisa ser descoberto e refletido por meio de um sistema inteligente de análise de dados. No futuro, todas as esferas da vida precisarão de sistemas inteligentes de análise de dados alinhados com as características da indústria para melhorar a produtividade e a competitividade.

O objetivo final do big data é a inteligência, e a inteligência precisa contar com tecnologias de IA, como aprendizado de máquina e aprendizado profundo. Portanto, a futura plataforma de processamento de dados deve suportar aprendizado de máquina.Correspondentemente, existem altos requisitos para alto desempenho (alto IOPS, baixa latência e grande número de arquivos) do sistema de armazenamento.

No futuro, a plataforma de processamento de dados inteligente deve ser construída na nuvem, e o sistema de armazenamento nativo da nuvem de alto desempenho, grande escala e baixo custo baseado na arquitetura totalmente flash sempre florescerá junto com a nuvem inteligente e se tornar o sistema de armazenamento dominante.

O processamento inteligente de dados não é apenas um processamento centralizado de alto desempenho, mas também inclui computação de ponta, acesso frio a dados, backup e arquivamento, replicação remota e recuperação de desastres, etc. Os sistemas de armazenamento têm um enorme espaço de mercado aqui. Porém, à medida que o futuro avança, quanto maior o grau de inteligência, maiores os requisitos para sistemas de armazenamento nativos da nuvem e maior o limite.

Como fazer?

Embora a perspectiva seja brilhante, é um processo gradual para aumentar efetivamente a produtividade e substituir os antigos pelos novos. Em outras palavras, há uma janela de tempo para o desenvolvimento do mercado.

Precisamos nos concentrar na demanda por análise de dados inteligente no setor e criar uma plataforma de análise de dados inteligente que atenda às características de vários setores, como nuvem industrial, Internet das Coisas e data lakes, para transformar a inteligência de dados de maneira verdadeira e eficaz em produtividade e competitividade. , nosso sistema de armazenamento possui dados de alto valor, o que reflete o valor de seus excelentes recursos.

Especificamente, é participar profundamente das soluções e construção de empresas, sistemas de dados da indústria e Internet das Coisas/nuvem/lagos de dados, e desenvolver em conjunto com a nuvem (nuvem privada, nuvem de borda) em termos de processamento de dados inteligente.

Referências:

[1] AWS. Data Lake Storage

https://aws.amazon.com/cn/products/storage/data-lake-storage/?nc=sn&loc=4

[2] Mínimo. Papel branco

https://storage.oak-tree.tech/acorn/documents/minio.high-performance-s3.pdf

[3] Mikito Takada. Sistemas distribuídos para diversão e lucro

[4] Martin Kleppmann. Projetando aplicativos com uso intensivo de dados: as grandes ideias por trás de sistemas confiáveis, escaláveis e sustentáveis

[5] Diego Ongaro, John Ousterhout. Algoritmo de Consenso da Jangada

https://raft.github.io/raft.pdf

(Original da equipe TaoCloud)

Analisando o armazenamento de objetos totalmente em flash

Acho que você gosta