Como fazer design de modelo em data warehouse - sobre modelagem hierárquica (combinada com as especificações do Alibaba OneData)

Combinado com a metodologia de construção de big data do Alibaba OneData, este artigo resume a experiência do processo de modelagem de data warehouse durante o estágio para atender aos requisitos relevantes.

Ideias de modelagem dimensional de data warehouse

  1. Esclareça os requisitos de negócios e as fontes de dados : primeiro, você precisa esclarecer os requisitos de negócios, incluindo metas de negócios, indicadores-chave de negócios, fontes de dados, etc. Em particular, você precisa compreender os tipos e origens das fontes de dados e determinar quais dados precisam ser armazenados no data warehouse. (Desmontar a fonte dos campos necessários para cálculo do indicador)
  2. Determine o modelo dimensional , incluindo tabelas de fatos e tabelas de dimensões, com base nas necessidades de negócios e nas fontes de dados. Entre elas, a tabela de fatos é usada para armazenar dados de fatos e a tabela de dimensões é usada para armazenar diversas informações de dimensão relacionadas aos dados de fatos.
  3. A modelagem hierárquica , baseada nas necessidades das diferentes camadas do data warehouse, estabelece modelos de dados de diferentes camadas. De acordo com a especificação Ali OneData, o data warehouse inclui camada de operação de dados ODS, camada comum de dados CDM (camada de dimensão de dados DIM, camada de modelo detalhado de dados DWD, camada de resumo de dados DWS), camada de aplicação de dados ADS .
  • ODS também é chamado de camada de origem , ou seja, o nome dos dados e o tipo de dados dos campos da tabela de dados são mantidos com a tabela de dados de origem.consistente
  • Na camada pública:listaDescreva eventos de pequena granularidade e inclua informações tão detalhadas quanto possível para facilitar o uso comercial, sem se preocupar com muitos campos redundantes;Tabela de resumoEm comparação com os dados detalhados, eles são ligeiramente agregados e resumidos e, em última análise, apontam para a tabela da camada de aplicação de anúncios. [Observe a distinção]
  • Tabela da camada de aplicaçãoAltamente customizado, um anúncio deve corresponderum processo de negócios, é um outdoorúnica fonte de dados, portanto, certifique-se de que todos os indicadores possam ser calculados a partir da tabela da camada ADS. Aqui, se houver um grande número de campos idênticos ou lógica entre os dois processos, a mesma tabela dws pode ser usada para evitar iniciar o desenvolvimento a partir de ods. Isto também reflete as vantagens de design da camada de resumo .
  1. Esclarecer a lógica de criação de tabelas : de acordo com os resultados do modelo dimensional e da modelagem hierárquica, estabelecer estruturas de tabelas específicas e relacionamentos de tabelas, incluindo tabelas de fatos, tabelas de dimensões, tabelas de agregação, etc.;
  2. Otimização pós-manutenção .

O título enfatiza alguns pontos a serem observados durante o processo de modelagem:

  1. Determinar os requisitos de negócios: Os requisitos de negócios precisam ser claramente determinados antes da modelagem, incluindo metas de negócios, indicadores-chave de negócios, fontes de dados, etc. A modelagem só pode ser melhorada se você compreender totalmente os requisitos de negócios.
  2. Determine a fonte de dados: A fonte de dados é a base para estabelecer o modelo de dados e deve ser sólida. A exatidão e integridade da fonte de dados afetam diretamente a exatidão e integridade do modelo de dados, portanto, a fonte de dados precisa ser cuidadosamente selecionada e verificada.
  3. Projetar modelos padronizados: Ao projetar um modelo, você precisa seguir as especificações de modelagem, incluindo regras de nomenclatura, estruturas de dados, tipos de dados, restrições de chave primária e chave estrangeira, etc. Essas especificações podem ajudar a garantir a consistência, a capacidade de manutenção e a escalabilidade do modelo de dados.
  4. Considere a consistência dos dados: quando vários modelos têm interseções, a consistência e a precisão dos dados precisam ser garantidas. É necessário projetar métodos apropriados de troca de dados na interseção de modelos ou usar modelos de dados específicos para resolver problemas de consistência de dados.
  5. Gestão de mudanças: Quando são feitas alterações no modelo, é necessário registrar o histórico de alterações e os motivos da alteração, para que o processo de evolução do modelo de dados possa ser melhor compreendido durante as manutenções subsequentes.
  6. Manutenção e otimização regulares: Depois que o modelo de dados é estabelecido, ele precisa ser mantido e otimizado regularmente, incluindo limpeza de dados, atualização de dados, backup de dados, etc. Estas medidas de manutenção e otimização podem garantir a fiabilidade e integridade do modelo de dados, ao mesmo tempo que melhoram a eficiência e a credibilidade da análise de dados.
    Resumindo, ao construir um modelo de dados, é necessário prestar atenção aos detalhes e à situação geral, considerar plenamente os requisitos de negócios e os relacionamentos lógicos de dados e seguir as especificações de modelagem e as melhores práticas para criar um modelo eficiente, flexível e fácil. modelo de dados para manter.

Acho que você gosta

Origin blog.csdn.net/weixin_43629813/article/details/131966740
Recomendado
Clasificación