Explicação detalhada da classificação do data warehouse - Youerhut
O significado da hierarquização de dados
- Desacoplamento , simplificação de problemas complexos: decomponha tarefas complexas em várias etapas para concluí-las, cada camada resolve um problema específico
- Estrutura de dados clara: Cada camada de dados tem sua função e responsabilidades, facilitando a localização e a compreensão ao usar tabelas.
- Reduzir o desenvolvimento repetido: padronizar a estratificação de dados e desenvolver alguns dados comuns de nível intermediário, o que pode reduzir enormes cálculos repetidos
- Calibre de dados unificado: por meio de camadas de dados, uma exportação de dados unificada é fornecida e o calibre de dados para saída externa é unificado.
- Encurte o processo de localização de problemas
Estratificação de data warehouse
ODS (Operation Data Store): Área de preparação de dados/camada de operação de dados
- Bibliotecas de negócios, dados básicos, logs ocultos, filas de mensagens, etc. que acessam diretamente os dados de origem
- Área de preparação da camada de data warehouse
DWD (Data Warehouse Detail): camada de detalhes de dados
- A camada de isolamento entre a camada de negócios e a camada de data warehouse mantém a mesma granularidade da camada ODS
- Fornecer certas garantias de qualidade de dados (operações de limpeza e normalização de dados, remoção de dados vazios, sujos, valores discrepantes, etc.)
DWM (Data Warehouse Middle): Camada intermediária de dados
- Com base na camada DWD, as operações são ligeiramente agregadas para calcular os indicadores estatísticos correspondentes.
- Após a agregação, será gerada uma “tabela intermediária”
DWS (Data Warehouse Service): camada de serviço de dados
- Com base na camada DWM, integre-a e resuma-a em uma camada de serviço de dados temáticos
- Os resultados resumidos são geralmente "tabelas amplas", usadas para OLAP, distribuição de dados, etc.
DIM: Camada de Dimensão Comum
- Com base no conceito de modelagem dimensional, estabeleça dimensões consistentes em toda a empresa para reduzir o risco de calibres e algoritmos de cálculo de dados inconsistentes.
ADS (Application Data Service): camada de aplicação de dados
- Armazenado em ES, Redis, PostgreSql e outros sistemas para análise e mineração de dados
- "Relatórios de dados" geralmente são armazenados nesta camada
Padrões de design de data warehouse
- Completude: A camada DWD é referenciada pela camada de resumo tanto quanto possível, e a camada ODS é referenciada o menos possível por outra camada que não a DWD, de preferência nenhuma.
- Reutilização: a maioria dos requisitos é suportada por tabelas na camada DWS
- Padronização: Principalmente do ponto de vista da exibição e dos nomes dos campos, uma exibição padronizada deve incluir informações como nível, área de assunto, regras de partição, tipo de extração, etc. A especificação do campo deve ser consistente com a palavra raiz e ter o mesmo nome do campo
Tabelas de fatos e dimensões
Tabela de fatos refere-se a uma tabela que armazena registros de fatos, como logs do sistema, registros de vendas, etc. Os registros da tabela de fatos estão crescendo constantemente, portanto o tamanho da tabela de fatos geralmente é muito maior do que o de outras tabelas.
A tabela de dimensões, também conhecida como tabela de consulta, é uma oferta bem-sucedida correspondente à tabela de fatos; ela salva os valores dos atributos das dimensões e pode ser associada à tabela de fatos, o que equivale a extrair e padronizar o atributos frequentemente repetidos na tabela de fatos e usando um gerenciamento de tabela. A tabela de dimensões contém principalmente duas partes:
- Dados dimensionais de alta cardinalidade: geralmente tabelas de dados semelhantes às tabelas de dados do usuário e tabelas de dados do produto. O volume de dados pode ser de dezenas de milhões ou centenas de milhões.
- Dados dimensionais de baixa cardinalidade: geralmente tabelas de configuração, como o significado chinês de campos enumerados ou tabelas de dimensão de data, etc.; a quantidade de dados pode ser de um dígito ou dezenas de milhares.
As tabelas de dimensões comuns incluem: tabela de data (que armazena atributos como semana, mês, trimestre, etc. correspondentes à data), tabela de localização (incluindo atributos como país, cidade, estado, cidade, etc.)