Vantagem de introdução de Kyuubi (link do site oficial)

Link do site oficial: https://kyuubi.apache.org/

O Apache Kyuubi™ é um gateway multilocatário distribuído para SQL sem servidor em data warehouses e Lakehouses.

Kyuubi constrói um mecanismo de consulta SQL distribuído sobre várias estruturas de computação modernas (como Apache Spark, Flink, Doris, Hive e Trino, etc.) para consultar conjuntos de dados massivos distribuídos em um grande número de máquinas de fontes de dados heterogêneas.

O canal do servidor Kyuubi na raia abaixo divide nossos usuários potenciais em usuários finais e administradores. Por um lado, oculta os detalhes técnicos de computação e armazenamento dos usuários finais. Assim, eles podem se concentrar em seus negócios e dados usando ferramentas familiares. Por outro lado, esconde a complexidade da lógica de negócios dos administradores. Como resultado, eles podem atualizar componentes no lado do servidor com tempo de inatividade de manutenção zero, otimizar cargas de trabalho com uma compreensão clara do que os usuários finais estão fazendo, autenticação, autorização e auditoria para garantir a segurança do cluster e dos dados e muito mais

insira a descrição da imagem aqui
Em geral, o ecossistema completo de Kyuubi é dividido na estrutura hierárquica mostrada na figura acima, e cada camada é fracamente acoplada. Combinar alguns dos componentes acima para construir uma pilha de dados moderna é como uma brincadeira de criança. Por exemplo, você pode usar Kyuubi, Spark e Iceberg para criar e gerenciar Data Lakehouse e usar SQL puro para processamento de dados (como ETL) e processamento analítico online (OLAP) (como BI). Todas as cargas de trabalho podem ser feitas em uma plataforma com uma cópia dos dados e uma interface SQL.

O módulo servidor de gateway unificado
funciona como um gateway unificado. O servidor permite acesso simplificado e seguro a qualquer recurso de cluster por meio de pontos de entrada, permitindo a implantação de diferentes cargas de trabalho para usuários finais (remotos). Por trás dessa entrada única, os administradores têm um único ponto para configurar, proteger e controlar o acesso remoto ao cluster. Os usuários finais podem usar qualquer mecanismo Kyuubi que desejarem para um processamento de dados contínuo para uma melhor experiência.

Interfaces de programação de aplicativos
Os usuários finais podem usar as interfaces de programação de aplicativos listadas abaixo para conectar e interoperar entre clientes suportados e servidores Kyuubi. A implementação atual é:

Hive Thrift Protocol
Uma interface compatível com HiveServer2 que permite aos usuários finais usar clientes thrift (suporte multilíngue, tcp e http), interfaces Java Database Connectivity (JDBC) baseadas em thrift ou interfaces Open Database Connectivity (ODBC) baseadas em JDBC. A ponte to-ODBC se comunica com Kyuubi.

API RESTful
Fornece API de gerenciamento de sistema, incluindo mecanismo, sessão, operação e outras APIs.

Ele fornece métodos que permitem que os clientes enviem consultas SQL e recebam resultados de consultas, enviem solicitações de metadados e recebam resultados de metadados.

Ele facilita o envio de aplicativos independentes para processamento em lote, como trabalhos do Spark.

Protocolo MySQL
Uma interface compatível com MySQL que permite que usuários finais se comuniquem com Kyuubi usando um conector MySQL (como Connector/J).

Planejamos adicionar mais.
Se você tiver alguma ideia ou pergunta, por favor, junte-se à nossa lista de discussão.

Multilocação
Kyuubi suporta multilocação de ponta a ponta. No plano de controle, os servidores Kyuubi fornecem uma camada de autenticação centralizada para reduzir o risco de vazamento de dados e recursos. Ele suporta vários protocolos, como LDAP e Kerberos, para proteger a rede entre cliente e servidor. No plano de dados, o mecanismo Kyuubi usa a mesma identidade de cliente confiável para instanciar a si mesmo. A busca de recursos e o acesso a dados e metadados acontecem em seus próprios mecanismos. Portanto, os gerentes de cluster e os provedores de armazenamento podem facilmente manter os dados e recursos seguros. Além disso, a Kyuubi também fornece extensões de autorização de mecanismo para otimizar o modelo de segurança de dados para o nível de linha/coluna refinado. Consulte a página de segurança para obter mais informações.

Alta Disponibilidade
O Kyuubi foi projetado com Alta Disponibilidade (HA) para garantir que seja executado continuamente sem falhas por um período de tempo especificado. A HA está comprometida em fornecer Kyuubi que atenda aos níveis acordados de desempenho operacional.

Balanceamento de carga
Devido ao acesso multilocatário, a Kyuubi deve garantir alta disponibilidade no ambiente de produção real.

Evite efetivamente um ponto único de falha.

Facilita o tempo de inatividade zero para manutenção planejada do sistema

Detecção de falhas
Falhas e carga do sistema de servidores e mecanismos kyuubi são visíveis por meio de métricas, logs, etc.

SQL sem servidor e mais
SQL sem servidor em Lakehouses torna mais fácil para os usuários finais obter insights do mundo dos dados e otimizar os pipelines de dados. pode:

Use SQL familiar para uma variedade de cargas de trabalho com a mesma experiência do usuário de um RDBMS.

Acesso amplo e seguro a dados em diferentes fontes de dados.

Obtenha alto desempenho em grandes quantidades de dados com recursos de computação escaláveis.

Além disso, a Kyuubi também oferece suporte ao envio sem servidor de trechos de código e aplicativos independentes para uso mais avançado.

Facilidade de uso
Os usuários finais podem explorar o mundo dos dados sem servidor usando código JDBC + SQL ou REST + para uma experiência otimizada. Para a maioria dos cenários, os superpoderes dos motores correspondentes, como Spark e Flink, não são mais necessários. Em outras palavras, a maior parte do trabalho relacionado à implantação e otimização do tempo de execução deve ser feito por profissionais do lado do servidor da Kyuubi. Aplica-se aos seguintes cenários:

Descoberta e exploração básicas
Infere dados rapidamente em vários formatos (Parquet, CSV, JSON, texto) em armazenamento em nuvem ou data lakes em clusters HDFS locais.

Formação e análise de Lake House
Crie facilmente uma camada de armazenamento de tabela ACID com Hudi, Iceberg ou/e Delta Lake.

Um data warehouse lógico
fornece abstração relacional sobre dados díspares sem a necessidade de tarefas ETL (da coleta à junção).

Execute em qualquer lugar, em qualquer escala
A maioria dos tipos de mecanismo Kyuubi tem um back-end distribuído ou pode agendar tarefas distribuídas em tempo de execução. Eles podem processar dados em máquinas de nó único ou clusters como YARN e Kubernetes. Além disso, o servidor Kyuubi também suporta a execução em bare metal ou no docker.

Alto desempenho
O desempenho da consulta é um dos principais fatores na implementação do Serverless SQL. Alcançar a capacidade de manutenção em um mecanismo de consulta de big data de última geração nos dá a base para conseguir isso:

Mecanismo de consulta de última geração

Vários aplicativos para alto rendimento

Runtime de execução compartilhável para baixa latência

Otimização contínua global no lado do servidor

Plugins de desempenho auxiliares, como Z-Ordering, otimizador de consulta, etc.

Outro objetivo do Serverless SQL é deixar os usuários finais com pouca ou nenhuma necessidade de se preocupar com otimizações complicadas de desempenho.

Acho que você gosta

Origin blog.csdn.net/qq_43688472/article/details/131807782
Recomendado
Clasificación