Comment concevoir un modèle dans un entrepôt de données – à propos de la modélisation hiérarchique (combinée avec la spécification Ali OneData)

Combiné avec la méthodologie de construction Big Data d'Alibaba OneData, cet article résume l'expérience du processus de modélisation d'entrepôt de données pendant le stage pour répondre aux exigences pertinentes.

Idées de modélisation dimensionnelle d'entrepôt de données

  1. Clarifier les exigences commerciales et les sources de données : Tout d'abord, vous devez clarifier les exigences commerciales, y compris les objectifs commerciaux, les indicateurs commerciaux clés, les sources de données, etc. En particulier, vous devez comprendre les types et les origines des sources de données et déterminer quelles données doivent être stockées dans l'entrepôt de données. (Démanteler la source des champs nécessaires au calcul de l'indicateur)
  2. Déterminez le modèle dimensionnel , y compris les tables de faits et les tables de dimensions, en fonction des exigences commerciales et des sources de données. Parmi eux, la table de faits est utilisée pour stocker des données de faits, et la table de dimensions est utilisée pour stocker diverses informations de dimension liées aux données de faits.
  3. La modélisation hiérarchique , basée sur les besoins des différentes couches de l'entrepôt de données, établit des modèles de données de différentes couches. Selon la spécification Alibaba OneData, l'entrepôt de données comprend la couche d'opération de données ODS, la couche commune de données CDM (couche de dimension de données DIM, couche de modèle de détail de données DWD, couche de résumé de données DWS) et la couche d'application de données ADS .
  • ODS est également appelé couche source , c'est-à-dire que le nom et le type de données des champs de la table de données sont conservés avec la table de données source.cohérent
  • Dans la couche publique :listeDécrivez les événements à petite granularité et incluez des informations aussi détaillées que possible pour faciliter une utilisation plus professionnelle, sans vous soucier d'un trop grand nombre de champs redondants ;SommairePar rapport aux données détaillées, elles sont légèrement agrégées et résumées, et pointent finalement vers le tableau de la couche d'application des annonces. [Notez la distinction]
  • Tableau des couches d'applicationTrès personnalisé, une annonce doit correspondre àun processus métier, est un panneau d'affichagesource unique de données, assurez-vous donc que tous les indicateurs peuvent être calculés à partir du tableau des couches ADS. Ici, s'il existe un grand nombre de champs ou de logiques identiques dans les deux processus, la même table dws peut être utilisée pour éviter le développement à partir d'ods. Cela reflète également les avantages de conception de la couche récapitulative .
  1. Clarifier la logique de construction des tables : sur la base des résultats du modèle dimensionnel et de la modélisation hiérarchique, établir des structures de tables et des relations de tables spécifiques, notamment des tables de faits, des tables de dimensions, des tables d'agrégation, etc. ;
  2. Optimisation post-maintenance .

Le titre souligne certains points auxquels il faut prêter attention lors du processus de modélisation :

  1. Déterminer les exigences commerciales : les exigences commerciales doivent être clairement déterminées avant la modélisation, y compris les objectifs commerciaux, les indicateurs commerciaux clés, les sources de données, etc. La modélisation ne peut être améliorée que si vous comprenez parfaitement les exigences de l'entreprise.
  2. Déterminer la source de données : La source de données constitue la base de l’établissement du modèle de données et doit être solide. L'exactitude et l'exhaustivité de la source de données affectent directement l'exactitude et l'exhaustivité du modèle de données, la source de données doit donc être soigneusement examinée et vérifiée.
  3. Concevoir des modèles standardisés : lors de la conception d'un modèle, vous devez suivre les spécifications de modélisation, notamment les règles de dénomination, les structures de données, les types de données, les contraintes de clé primaire et de clé étrangère, etc. Ces spécifications peuvent contribuer à garantir la cohérence, la maintenabilité et l’évolutivité du modèle de données.
  4. Tenez compte de la cohérence des données : lorsque plusieurs modèles ont des intersections, la cohérence et l’exactitude des données doivent être garanties. Il est nécessaire de concevoir des méthodes d’échange de données appropriées à l’intersection des modèles ou d’utiliser des modèles de données spécifiques pour résoudre les problèmes de cohérence des données.
  5. Gestion des modifications : lorsque des modifications sont apportées au modèle, l'historique des modifications et les raisons de ces modifications doivent être enregistrées afin que l'évolution du modèle de données puisse être mieux comprise lors de la maintenance ultérieure.
  6. Maintenance et optimisation régulières : une fois le modèle de données établi, il doit être régulièrement entretenu et optimisé, y compris le nettoyage des données, la mise à jour des données, la sauvegarde des données, etc. Ces mesures de maintenance et d'optimisation peuvent garantir la fiabilité et l'intégrité du modèle de données, tout en améliorant l'efficacité et la crédibilité de l'analyse des données.
    En bref, lors de la création d'un modèle de données, vous devez prêter attention aux détails et à la situation globale, prendre pleinement en compte les besoins de l'entreprise et les relations logiques entre les données, et suivre les spécifications de modélisation et les meilleures pratiques pour créer un modèle efficace, flexible et facile à entretenir. modèle de données.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_43629813/article/details/131966740
conseillé
Classement