Big Data|O conceito de camadas de data warehouse [Notas de estudo]

A análise mais abrangente da estratificação do data warehouse, resolvendo o problema da estratificação do data warehouse corporativo em um artigo - Sala de autoestudo do programador Bai

Explicação detalhada da classificação do data warehouse - Youerhut


O significado da hierarquização de dados
  • Desacoplamento , simplificação de problemas complexos: decomponha tarefas complexas em várias etapas para concluí-las, cada camada resolve um problema específico
  • Estrutura de dados clara: Cada camada de dados tem sua função e responsabilidades, facilitando a localização e a compreensão ao usar tabelas.
  • Reduzir o desenvolvimento repetido: padronizar a estratificação de dados e desenvolver alguns dados comuns de nível intermediário, o que pode reduzir enormes cálculos repetidos
  • Calibre de dados unificado: por meio de camadas de dados, uma exportação de dados unificada é fornecida e o calibre de dados para saída externa é unificado.
  • Encurte o processo de localização de problemas
Estratificação de data warehouse
ODS (Operation Data Store): Área de preparação de dados/camada de operação de dados
  • Bibliotecas de negócios, dados básicos, logs ocultos, filas de mensagens, etc. que acessam diretamente os dados de origem
  • Área de preparação da camada de data warehouse
DWD (Data Warehouse Detail): camada de detalhes de dados
  • A camada de isolamento entre a camada de negócios e a camada de data warehouse mantém a mesma granularidade da camada ODS
  • Fornecer certas garantias de qualidade de dados (operações de limpeza e normalização de dados, remoção de dados vazios, sujos, valores discrepantes, etc.)
DWM (Data Warehouse Middle): Camada intermediária de dados
  • Com base na camada DWD, as operações são ligeiramente agregadas para calcular os indicadores estatísticos correspondentes.
  • Após a agregação, será gerada uma “tabela intermediária”
DWS (Data Warehouse Service): camada de serviço de dados
  • Com base na camada DWM, integre-a e resuma-a em uma camada de serviço de dados temáticos
  • Os resultados resumidos são geralmente "tabelas amplas", usadas para OLAP, distribuição de dados, etc.
DIM: Camada de Dimensão Comum
  • Com base no conceito de modelagem dimensional, estabeleça dimensões consistentes em toda a empresa para reduzir o risco de calibres e algoritmos de cálculo de dados inconsistentes.
ADS (Application Data Service): camada de aplicação de dados
  • Armazenado em ES, Redis, PostgreSql e outros sistemas para análise e mineração de dados
  • "Relatórios de dados" geralmente são armazenados nesta camada
Padrões de design de data warehouse
  • Completude: A camada DWD é referenciada pela camada de resumo tanto quanto possível, e a camada ODS é referenciada o menos possível por outra camada que não a DWD, de preferência nenhuma.
  • Reutilização: a maioria dos requisitos é suportada por tabelas na camada DWS
  • Padronização: Principalmente do ponto de vista da exibição e dos nomes dos campos, uma exibição padronizada deve incluir informações como nível, área de assunto, regras de partição, tipo de extração, etc. A especificação do campo deve ser consistente com a palavra raiz e ter o mesmo nome do campo
Tabelas de fatos e dimensões

Tabela de fatos refere-se a uma tabela que armazena registros de fatos, como logs do sistema, registros de vendas, etc. Os registros da tabela de fatos estão crescendo constantemente, portanto o tamanho da tabela de fatos geralmente é muito maior do que o de outras tabelas.

A tabela de dimensões, também conhecida como tabela de consulta, é uma oferta bem-sucedida correspondente à tabela de fatos; ela salva os valores dos atributos das dimensões e pode ser associada à tabela de fatos, o que equivale a extrair e padronizar o atributos frequentemente repetidos na tabela de fatos e usando um gerenciamento de tabela. A tabela de dimensões contém principalmente duas partes:

  • Dados dimensionais de alta cardinalidade: geralmente tabelas de dados semelhantes às tabelas de dados do usuário e tabelas de dados do produto. O volume de dados pode ser de dezenas de milhões ou centenas de milhões.
  • Dados dimensionais de baixa cardinalidade: geralmente tabelas de configuração, como o significado chinês de campos enumerados ou tabelas de dimensão de data, etc.; a quantidade de dados pode ser de um dígito ou dezenas de milhares.

As tabelas de dimensões comuns incluem: tabela de data (que armazena atributos como semana, mês, trimestre, etc. correspondentes à data), tabela de localização (incluindo atributos como país, cidade, estado, cidade, etc.)

おすすめ

転載: blog.csdn.net/Changxing_J/article/details/133202413