Interpretação abrangente do EasyMR6.2: quatro funções principais são profundamente otimizadas para desbloquear uma nova experiência de computação e processamento de big data

Na conferência da primavera de 2024, Kangaroo Cloud trouxe um novo lançamento da versão V6.2 do produto de pilha de dados . Entre eles, EasyMR, como um recurso-chave na pilha de dados V6.2, representa a compreensão profunda e a inovação contínua do ecossistema de big data da Kangaroo Cloud.

EasyMR (doravante denominados coletivamente como EMR) é um mecanismo de computação elástico construído pela Kangaroo Cloud baseado em componentes de código aberto, como Hadoop, Hive, Spark, Flink e HBase. Ele fornece grande segurança, confiabilidade, elasticamente escalonável e baixo custo. armazenamento de dados e serviços de computação . Entre eles, a plataforma de gerenciamento de operação e manutenção de big data de nível empresarial EasyManager, desenvolvida de forma independente , oferece suporte às funções completas de criação, gerenciamento, implantação, operação e manutenção e monitoramento de clusters Hadoop, fornecendo uma solução eficiente de data center.

Enfrentando as crescentes necessidades de processamento e análise de dados das empresas, a versão EMR6.2 fornecerá aos usuários melhores serviços de operação e manutenção de big data e otimização do desempenho da computação. A seguir está uma introdução detalhada à otimização das quatro funções principais da versão EMR6.2 para ajudar os usuários a compreender totalmente este produto inovador.

UI completamente atualizada e atualizada: experiência interativa simples e confortável

Kangaroo Cloud entende a importância da experiência do usuário, portanto, na versão EMR6.2, atualizamos e atualizamos de forma abrangente a interface da IU. O novo design da interface segue um estilo simples, mas elegante, visando proporcionar aos usuários uma experiência interativa intuitiva e confortável. Seja você um usuário novato ou experiente, você pode começar rapidamente e gerenciar facilmente clusters complexos de big data.

Além disso, também otimizamos a velocidade de resposta e a fluência operacional da interface para garantir que os usuários possam desfrutar de uma experiência operacional mais tranquila durante a operação e manutenção do cluster .

arquivo arquivo

Configuração diferenciada: atende diversas necessidades

A versão EMR6.2 apresenta a função de configuração diferenciada por grupo de instâncias , permitindo aos usuários personalizar a configuração do cluster de acordo com suas necessidades específicas. Os usuários podem criar grupos de instâncias independentes a partir de diferentes nós no cluster EMR e definir parâmetros de configuração específicos no grupo de instâncias para obter melhor desempenho, utilização de recursos e agendamento de tarefas.

Quer se trate de uma start-up sensível ao custo ou de uma grande empresa com requisitos de desempenho mais elevados, o EMR6.2 pode fornecer opções de configuração flexíveis para atender às necessidades de diferentes usuários.

arquivo

As vantagens específicas da implementação de estratégias de configuração diferenciadas para grupos de instâncias incluem, entre outras, as seguintes:

● Alocação de recursos

A configuração diferenciada pode efetivamente implementar a alocação refinada de recursos de acordo com as necessidades exclusivas de várias tarefas, cobrindo vários níveis, como computação, armazenamento e recursos de rede. Evite o desperdício de recursos e melhore a utilização dos recursos para garantir que todas as tarefas no cluster sejam suportadas por recursos apropriados.

●Otimização do agendamento de tarefas

Para diferentes tipos de tarefas ou trabalhos, diferentes parâmetros de configuração podem ser definidos de acordo com suas características para otimizar o agendamento de tarefas e a eficiência de execução.

● Tolerância a falhas e estabilidade

Através de configuração diferenciada, a tolerância a falhas e a estabilidade do cluster podem ser melhoradas. Dependendo da importância e da carga do nó ou grupo de instâncias, diferentes mecanismos de tolerância a falhas e estratégias de tratamento de falhas podem ser definidos para garantir que o cluster possa manter uma operação estável diante de situações anormais.

● Gestão de custos

A configuração diferenciada também pode ajudar a gerenciar custos. De acordo com as necessidades do negócio e as restrições orçamentárias, diferentes grupos de instâncias no cluster podem ser razoavelmente configurados para evitar desperdício de recursos, reduzir custos de operação e manutenção e encontrar um equilíbrio entre desempenho e custo.

Migração de cluster: transição perfeita sem interrupção dos negócios

À medida que os negócios de uma empresa se desenvolvem, a quantidade crescente de dados muitas vezes leva a problemas como capacidade insuficiente do data center ou mudanças no data center. As empresas precisam migrar dados de um data center para outro. Ao mesmo tempo, no contexto da substituição da localização, cada vez mais empresas estão a migrar plataformas não inovadoras, como CDH, HDP e CDP, para plataformas localizadas de big data. Portanto, a EMR lançou uma função de migração de cluster de big data para ajudar as empresas a concluir a migração de data centers com eficiência.

O recurso de migração de cluster permite que os usuários migrem perfeitamente seus clusters de big data entre diferentes data centers ou serviços em nuvem, sem se preocupar com perda de dados ou interrupção dos negócios. Através deste recurso, as empresas podem ajustar com mais flexibilidade a sua infra-estrutura de TI para se adaptar às mudanças nas necessidades do mercado.

arquivo

arquivo

Atualização do motor revelada: salto de desempenho, nova experiência

O mais interessante é que a versão EMR6.2 alcançou um grande avanço no desempenho do mecanismo de computação . Não apenas otimizamos os mecanismos de computação Spark e Flink existentes, mas também introduzimos novos algoritmos e tecnologias para melhorar a velocidade de processamento de dados e a eficiência da computação. Isto significa que os utilizadores podem concluir tarefas de análise de dados mais complexas num tempo mais curto, acelerando assim o processo de tomada de decisões e melhorando a competitividade empresarial.

● Spark3 oferece suporte à otimização do índice Z-oreder

Z-Order é uma tecnologia que pode compactar dados multidimensionais em uma dimensão. Para um dado, podemos considerar seus múltiplos campos classificados como múltiplas dimensões dos dados. Z-Order pode passar certas regras de mapeamento de dados multidimensionais. dados unidimensionais.

Especificamente, o valor z é construído através de certas regras . O valor z pode ser entendido como os dados unidimensionais mencionados acima. Como mostrado abaixo:

arquivo

No Spark SQL, Kangaroo Cloud adicionou a sintaxe OPTIMIZE XX ZORDER BY para suportar o índice Z-Order, realizando a otimização do índice Z-Order da tabela INSERT INTO, tabela INSERT OVERWRITE, tabela CREATE TABLE AS SELECT, DISTINCT e outros SQL.

Spark3 oferece suporte à otimização de ordem Z, o que melhora muito a eficiência do processamento e consulta de dados, reduz a sobrecarga de IO e acelera a execução do trabalho. Especialmente em cenários onde é necessário processar conjuntos de dados em grande escala e operações de consulta complexas, a otimização da ordem Z pode desempenhar um papel importante. Ao resolver o problema da taxa de compactação de arquivos, após usar a otimização de ordem Z, a taxa de compactação de arquivos aumentou quase 20% em comparação com a otimização manual e aumentou quase 10 vezes em comparação com a tarefa original em comparação com o Spark3 de código aberto. tarefa, o desempenho também é de quase 30%. A melhoria melhorou muito o desempenho e a eficiência das operações offline.

● Atualização rápida da tarefa por trabalho do Flink

Nas operações de produção reais, muitas vezes ocorrem alterações de parâmetros de tarefas em tempo real ou ajustes de operadores e funções. Geralmente, a tarefa atual só pode ser cancelada primeiro e, em seguida, o CheckPoint é selecionado para restaurar ou executar novamente. espere, o que é muito difícil.

A fim de resolver o problema de interrupção de serviço causado por atualizações de tarefas no modo tradicional por trabalho, melhorar a estabilidade das tarefas e a disponibilidade do sistema e atender aos requisitos de continuidade dos negócios e alta disponibilidade no ambiente de produção. A equipe Kangaroo Cloud Engine conduziu melhorias relevantes de exploração e código-fonte e otimizou a reinicialização a quente de tarefas no retorno de chamada assíncrono de cancelamento de tarefa por trabalho :

① Primeiro determine se existe um novo cache JobGraph atualmente. Se houver um cache, insira a lógica de reinicialização a quente.

② Obtenha as informações do CheckPoint da tarefa cancelada e preencha-as no novo JobGraph

③Atualize JobGrap para JobMaster e limpe as informações de cache do JobGraph

④Limpe os recursos gerenciados pelo SloyPool no JobMaster

⑤JobMaster recria o ScheduleNg e o agenda para execução. Isso iniciará uma nova execução de agendamento do JobGraph.

arquivo

A otimização de atualização a quente de tarefas por trabalho do Flink melhora significativamente a eficiência do desenvolvimento, reduz o tempo de inatividade e melhora a flexibilidade e a confiabilidade do aplicativo. Para aplicações em tempo real que exigem iteração rápida e ajuste dinâmico, ele traz a melhor experiência em eficiência.

Eficiência de desenvolvimento aprimorada: os desenvolvedores podem testar e iterar código rapidamente sem passar pelo tedioso processo de parar e reiniciar, o que acelera os ciclos de desenvolvimento e permite lançamentos mais frequentes

· Reduzir o tempo de inatividade: As atualizações dinâmicas podem minimizar o tempo de inatividade dos aplicativos, aumentando assim a disponibilidade do serviço, o que é especialmente importante para aplicativos de missão crítica e em tempo real.

· Ajustar parâmetros dinamicamente: Os parâmetros de configuração do trabalho, como paralelismo ou parâmetros do operador , podem ser ajustados dinamicamente sem reiniciar o trabalho, permitindo ajustes flexíveis com base no fluxo de dados em tempo real ou nas condições de carga.

● Desenvolvimento de outras funções

Além disso, no lado do mecanismo, também desenvolvemos funções como acoplamento Spark Ranger , otimização de visualização materializada Spark e isolamento de carregamento de classe do modo Flink Session para melhorar o desempenho de computação do mecanismo e, ao mesmo tempo, aumentar a segurança e a escalabilidade das tarefas do mecanismo.

Resumir

Em resumo, o lançamento do EMR6.2 marca outro marco importante para Kangaroo Cloud na área de serviços de big data. Através da otimização de quatro funções principais, incluindo atualização e atualização abrangentes da interface do usuário, configuração diferenciada, migração de cluster e atualização de mecanismo, o EMR6.2 fornece aos usuários uma plataforma de mecanismo de computação de big data mais poderosa, flexível e eficiente , ajudando as empresas no gerenciamento de dados e A salto qualitativo na análise.

Endereço para download do "White Paper do Sistema de Indicadores da Indústria": https://www.dtstack.com/resources/1057?src=szsm

Endereço de download do "White Paper do produto Dutstack": https://www.dtstack.com/resources/1004?src=szsm

Endereço para download do "White Paper sobre práticas da indústria de governança de dados": https://www.dtstack.com/resources/1001?src=szsm

Para quem deseja conhecer ou consultar mais sobre produtos de big data, soluções industriais e cases de clientes, visite o site oficial da Kangaroo Cloud: https://www.dtstack.com/?src=szkyzg

Linus assumiu a responsabilidade de evitar que os desenvolvedores do kernel substituíssem tabulações por espaços. Seu pai é um dos poucos líderes que sabe escrever código, seu segundo filho é o diretor do departamento de tecnologia de código aberto e seu filho mais novo é um núcleo de código aberto. contribuidor Robin Li: A linguagem natural se tornará uma nova linguagem de programação universal. O modelo de código aberto ficará cada vez mais atrás da Huawei: levará 1 ano para migrar totalmente 5.000 aplicativos móveis comumente usados ​​para Hongmeng. vulnerabilidades de terceiros. O editor de rich text Quill 2.0 foi lançado com recursos, confiabilidade e desenvolvedores. A experiência foi bastante melhorada. fonte de Laoxiangji não é o código, as razões por trás disso são muito comoventes. O Google anunciou uma reestruturação em grande escala.
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/3869098/blog/11054017
Recomendado
Clasificación