Apache Doris (1): introdução do Doris e cenários de uso

Índice

1.Introdução ao Apache Doris

2. Cenários de uso do Apache Doris

 2.1 Análise do relatório

2.2 Consulta ad hoc

​​​​​​​2.3 Construção de um data warehouse unificado

​​​​​​​​​​​​2.4
Consulta


Antes de entrar no texto principal, você pode se inscrever no tópico, curtir, comentar e coletar a postagem do blog, e seguir o IT Pindao para obter conteúdo de blog de alta qualidade!


1.Introdução ao Apache Doris

Apache Doris é um banco de dados analítico de alto desempenho e em tempo real baseado na arquitetura MPP. Ele é bem conhecido por seus recursos extremamente rápidos e fáceis de usar. Ele só precisa de um tempo de resposta inferior a um segundo para retornar resultados de consulta para dados massivos Ele não só pode suportar cenários de consulta de ponto de alta simultaneidade, mas também pode suportar cenários de análise complexos de alto rendimento . Com base nisso, o Apache Doris pode atender melhor a cenários de uso, como análise de relatório, consulta ad hoc, construção de data warehouse unificado, aceleração de consulta federada de data lake, etc. Os usuários podem construir análise de comportamento do usuário, plataforma de experimento AB, análise de recuperação de log, aplicativos de usuário como análise de retrato e análise de pedido.

Apache Doris nasceu como um projeto Palo no negócio de reportagem publicitária do Baidu. Seu código-fonte foi oficialmente aberto em 2017. Em julho de 2018, foi doado à Fundação Apache para incubação pelo Baidu. Em seguida, foi incubado e desenvolvido por membros da incubadora. comitê de gerenciamento de projetos sob a orientação de mentores Apache. Atualmente, a comunidade Apache Doris reuniu mais de 400 colaboradores de quase 100 empresas de diferentes setores, e o número de colaboradores ativos mensais é próximo de 100. Em junho de 2022, Apache Doris formou-se com sucesso na Apache Incubator e tornou-se oficialmente um Apache Top-Level Project (TLP).

O Apache Doris agora tem uma ampla variedade de grupos de usuários na China e até mesmo em todo o mundo. Até agora, o Apache Doris foi usado nos ambientes de produção de mais de 1.000 empresas em todo o mundo. Entre as 50 principais empresas de Internet na China por mercado capitalização ou avaliação, mais de 80% usam Apache Doris há muito tempo, incluindo Baidu, Meituan, Xiaomi, JD.com, ByteDance, Tencent, NetEase, Kuaishou, Weibo, Shell, etc. Ao mesmo tempo, também tem aplicações ricas em algumas indústrias tradicionais, como finanças, energia, manufatura, telecomunicações e outras áreas.

O site oficial do Apache Doris é https://doris.apache.org.

Nota: MPP: Processamento Massivamente Paralelo, processamento paralelo massivo. De modo geral, a arquitetura MPP refere-se a um banco de dados distribuído. Existem vários nós para processamento de dados. Cada nó possui um disco e memória independentes. Tarefas simultâneas são distribuídas para cada nó para processar seus próprios dados. Após a conclusão do cálculo, os resultados são finalmente reunidos para formar o resultado final.

MPP pode ser visto como MPP DB e arquitetura MPP. Por exemplo, a arquitetura Hadoop é uma arquitetura MPP, que é processamento distribuído em grande escala, ou seja, arquitetura de processamento distribuído. No entanto, o termo MPP foi proposto pelos fabricantes de banco de dados nos primeiros dias, e geralmente se refere a bancos de dados distribuídos. Portanto, entender o conceito de MPP pode ser entendido como MPP é um conceito de alta dimensão. MPP pode ser dividido em dois conceitos: MPP DB e arquitetura MPP. Hadoop ou MR é a arquitetura MPP. MPPDB é um banco de dados distribuído. Estritamente falando, Doris é um MPP.DB é apenas um banco de dados distribuído comumente conhecido como arquitetura MPP na indústria.

Apache Doris não é DorisDB. Devido a vários motivos complicados, DorisDB foi posteriormente renomeado como StarRocks, o que significa que DorisDB é o antecessor do StarRocks. Doris era originalmente um sistema dedicado para resolver os relatórios estatísticos do Baidu Fengchao.Com o rápido desenvolvimento dos negócios do Baidu, o sistema foi iterado muitas vezes e gradualmente assumiu as necessidades de relatórios estatísticos e análises multidimensionais dos negócios internos do Baidu. Em 2013, o Baidu atualizou Doris para a estrutura MPP e nomeou o novo sistema Palo. Em 2017, o nome foi alterado para Baidu Palo e código aberto no GitHub. Quando foi contribuído para a Fundação Apache em 2018, devido à cooperação com banco de dados estrangeiro fabricantes O nome é o mesmo, então optei por usar o nome Doris original, que é a origem do Apache Doris.

Em fevereiro de 2020, alguns alunos da equipe Doris do Baidu saíram para iniciar seus próprios negócios e construíram seu próprio produto comercial de código fechado DorisDB baseado na versão anterior do Apache Doris, que é o antecessor do StarRocks. Para obter detalhes, consulte: https://www.sohu.com/a/488816742_827544.

​​​​​​​2. Cenários de uso do Apache Doris

Conforme mostrado na figura abaixo, após várias integrações e processamentos de dados, a fonte de dados geralmente é armazenada no data warehouse Doris em tempo real e no lake warehouse offline (Hive, Iceberg, Hudi).O Apache Doris é amplamente utilizado nos seguintes cenários.

 ​​​​​​​2.1 Análise do Relatório

  • Painéis em tempo real.
  • Relatórios para analistas e gerentes internos.
  • Análise de relatórios altamente simultâneos para usuários ou clientes (Customer Facing Analytics). Por exemplo, a análise de site para proprietários de sites e relatórios de publicidade para anunciantes geralmente exigem milhares de QPS para simultaneidade, e a latência de consulta requer resposta em nível de milissegundos. JD.com, uma conhecida empresa de comércio eletrônico, usa Apache Doris em relatórios de publicidade, gravando 10 bilhões de linhas de dados todos os dias, com dezenas de milhares de consultas simultâneas por QPS, e o atraso de consulta do 99º percentil é de 150 ms.

2.2 Consulta ad hoc

Análise de autoatendimento para analistas, o modo de consulta não é fixo e requer alto rendimento. Xiaomi construiu uma plataforma de análise de crescimento (Growing Analytics, GA) baseada em Doris, que usa dados de comportamento do usuário para realizar análises de crescimento de negócios. O atraso médio da consulta é de 10s, o atraso da consulta do 95º percentil está dentro de 30s e o volume diário de consultas SQL é dezenas de milhares.

​​​​​​​2.3 Construção de um data warehouse unificado

Uma plataforma atende às necessidades de construção de data warehouse unificado e simplifica a pesada pilha de software de big data. O data warehouse unificado construído por Haidilao baseado em Doris substituiu a antiga arquitetura composta por Spark, Hive, Kudu, Hbase e Phoenix, e a arquitetura foi bastante simplificada.

2.4 Consulta Federada do Data Lake

Por meio da análise federada de dados no Hive, Iceberg e Hudi por meio da aparência externa, o desempenho da consulta é bastante melhorado, evitando a cópia de dados.

Acho que você gosta

Origin blog.csdn.net/qq_32020645/article/details/131355112
Recomendado
Clasificación