Résumé de la gouvernance des actifs de données: utiliser les données pour gouverner les données

| 0x00 Pourquoi la gouvernance des données est difficile

L'écriture n'est pas facile, faites attention au compte officiel: la station de données de Xiaoyang, encore mieux.

Le président Mao a déclaré: "Si vous étudiez un processus, s'il s'agit d'un processus complexe avec plus de deux contradictions, vous devez faire de votre mieux pour découvrir sa contradiction principale. Si vous attrapez cette contradiction principale, tous les problèmes seront résolus."

Pour la gouvernance des données, la contradiction est: «la contradiction entre les ressources limitées de la machine et la croissance illimitée du stockage informatique».

En raison de la contradiction principale, la «gouvernance des données» est toujours un sujet brûlant dans le domaine des données plus de 10 ans après sa proposition. La solution est également très simple, c'est-à-dire que limiter au maximum la croissance du stockage informatique, que ce soit par des moyens techniques, tels que la compression des données, le stockage en colonnes, ou des méthodologies, telles que la modélisation dimensionnelle, les scores de santé du stockage, peuvent tous retarder le dilemme de la croissance des données.

Mais le plus gros problème reste un problème humain. On peut dire qu'il ne s'agit pas d'un poste d'entrepôt de données ou d'un poste de développement de données. La sensibilité à la gouvernance des données ou aux problèmes de risque de données est insuffisante. Ces lacunes se reflètent principalement sous trois aspects:

Niveau global

  1. La conscience des risques n'est pas forte: premièrement, la gouvernance des données favorise généralement l'analyse post-mortem, et les habitudes quotidiennes de production et de diffusion sont très aléatoires; deuxièmement, la couverture de la vérification de la qualité des données est insuffisante ou l'identification des problèmes de données n'est pas assez précise; troisièmement , la plupart des membres de l'équipe sont du développement des affaires. L'investissement dans les actions de gouvernance de base est limité.
  2. Méthodes de gouvernance déraisonnables: la gouvernance des données est généralement confrontée au problème du déséquilibre entre les récompenses et les punitions. Par exemple, si vous ne le faites pas bien, vous ne ferez que vous punir, et vous ne serez pas félicité si vous le faites bien. Actions de gouvernance sont généralement périodiques, avec participation individuelle, et ne peuvent pas stimuler la subjectivité individuelle.

Niveau commercial

  1. Fonctionnement raffiné: De plus en plus de scénarios de segmentation métier ont conduit à une augmentation de la demande. La même donnée doit être affichée dans différents scénarios métier, ce qui conduit objectivement à la croissance du stockage informatique.
  2. Tâches temporaires: pour certaines anciennes entreprises, en raison du changement de responsable, même si les données ne sont plus utilisées, personne ne peut décider de se déconnecter.
  3. Actualisation fréquente des données: dans des scénarios tels que le commerce électronique, il existe de nombreuses demandes d'actualisation des données, ce qui entraîne le fonctionnement des ressources informatiques du cluster à pleine capacité.

Niveau de développement

  1. L'efficacité avant tout: la tâche principale de l'individu étant de soutenir rapidement le développement commercial, la volonté d'améliorer la consommation des coûts n'est pas élevée.
  2. Ressources insuffisantes: il n'y a pas de temps ou très peu de temps qui peut être utilisé pour la gestion des ressources.
  3. Capacité insuffisante: en raison de problèmes de capacité de modélisation ou de spécification, des problèmes tels que le calcul similaire des données, l'inclinaison des données, le traitement simple, la numérisation violente et les paramètres déraisonnables sont très importants.

Par conséquent, la gouvernance des données consiste avant tout à unifier le «consensus humain» et à établir un processus de «système juridique».

| 0x01 Analyser les principaux problèmes de la gouvernance des données

Puisque nous voulons unifier le «consensus des gens», alors nous commencerons par le problème «commun» et analyserons progressivement les points de rupture pour une solution.

En tant que développement de données, quels sont les problèmes «courants» que nous rencontrons souvent? Je pense qu'il y a environ trois points:

  1. Impossible de trouver des données: pourquoi devrions-nous mettre l'accent sur les spécifications de modélisation? C'est pour permettre aux autres de voir ce que fait cette montre. Lorsque l'échelle de l'entreprise continue de s'étendre et que le lien de dépendance aux données continue de s'approfondir, s'il existe des différences dans les spécifications en amont et en aval, telles que la dénomination, les annotations et les cycles d'actualisation, même si la table en amont peut être trouvée en fonction de la relation sanguine, c'est parce que vous ne pouvez pas comprendre ce que les données signifient et comment. Conçu, mais ne peut pas être utilisé, vous ne pouvez le refaire que par vous-même.
  2. N'osez pas utiliser les données: les données en double ont toujours été un gros problème dans la gouvernance des données, car de nombreux noms de tables ou champs similaires peuvent généralement être trouvés dans les métadonnées et les calibres de traitement sont différents. Je n'ose pas l'utiliser quand je le vois. Je peux le refaire moi-même.
  3. Ne laissez pas les données être utilisées: comme de nombreuses entreprises se rendent compte que le coût des machines augmente trop rapidement, elles mettront en avant des exigences strictes sur le budget des données, ce qui conduit à certaines grandes entreprises qui prennent trop de ressources, et comment faire de nouvelles demandes devient un problème. Tout le monde parle de gérer les données et de réduire les ressources de stockage et de calcul, mais peu de gens vous diront comment développer des données à une échelle limitée.

Imaginons un cas: l'
indicateur A est le cœur de métier de l'entreprise, mais pour des raisons objectives, les règles de calcul doivent être modifiées, nous rencontrerons alors ces types de situations.

  1. Les indicateurs de l’entreprise sont tous calculés directement à partir de l’ODS. À ce stade, toutes les tables en aval doivent modifier la logique de calcul, impliquant des tables X, des interfaces Y et des modules de produit Z;
  2. Il suffit de modifier la table DWS correspondante, mais l'aval doit progressivement étudier la portée de l'influence, impliquant des interfaces Y et des modules de produit Z;
  3. Cet indicateur a une signification et des règles de calcul uniques au sein de l'entreprise, et les données ne sont révélées que sur une seule interface. À l'heure actuelle, seules quelques tables fixes doivent être modifiées.

Bien que l’activité de l’entreprise soit généralement très complexe, si l’abstraction est bonne et que la logique sous-jacente est modifiée, cela n’aura pas trop d’impact sur l’utilisateur et évitera une rectification inutile des données.

À partir de cet exemple, nous pouvons résoudre certains problèmes courants:

  1. Du point de vue de la production de données: la modélisation de la couche publique doit être normalisée, au moins elle doit être approuvée par les analystes ou les parties commerciales, et les tables ne peuvent pas être construites à volonté; en même temps, le temps de sortie des données doit être garantie, et les tests de qualité correspondants Il doit y avoir un mécanisme de contrôle;
  2. Du point de vue de l'utilisation des données: les outils de R&D doivent être unifiés et les tables d'historique doivent avoir des mécanismes hors ligne.

Ne sous-estimez pas l'unification des outils de R&D. Lorsque l'entreprise se développe rapidement, les solutions techniques sont très évolutives. Plus vous utilisez de flexibilité, plus l'endettement technique est élevé à l'avenir.

Les actifs de données reposent sur l'écosystème Hadoop et ses coûts de gouvernance sont très élevés, en particulier pour les données non structurées, qui occupent une grande quantité de stockage et de calcul, et la valeur de la production est relativement limitée. Dans le passé, nous nous sommes principalement concentrés sur la gestion du stockage, mais à mesure que le nombre de tâches augmentait, la gestion informatique était également à l'ordre du jour. Par conséquent, dans une perspective globale, une entreprise doit disposer de ses propres méthodes de modélisation et d'évaluation unifiées, d'une plate-forme de développement, d'exploitation et de maintenance unifiée et, sur la base de spécifications de développement et de méthodes de développement unifiées, peut-elle parler d'une gouvernance efficace des actifs de données.

«Des livres avec le même texte, des voitures avec la même piste, des poids et des mesures unifiés» est l'idée centrale de la gouvernance des données.

| 0x02 Utiliser les données pour gérer les données

Après avoir unifié le consensus et unifié les poids et les mesures, nous avons les «mains» pour la gouvernance des données. Pour être plus précis, lorsque les comportements au travail sont standardisés, ils peuvent être mesurés par des «indicateurs de données» pour voir la situation globale des actifs de données et les principales pistes d'amélioration.

Ceux qui font de la croissance des utilisateurs connaissent l'importance d'établir un système d'index, et ceux qui font de la gouvernance des données doivent également être conscients de «l'utilisation des données pour gérer les données».

Alors, quelle est l'idée spécifique? Il y a deux points principaux, l'un est la surveillance du modèle de données lui-même et l'autre est la surveillance de la complexité de l'entreprise.

La surveillance du modèle de données est compréhensible, mais pourquoi surveiller la complexité de l'entreprise? Étant donné que la complexité de l'entreprise affecte largement la complexité et le coût du modèle de données, une surveillance est également nécessaire.

Permettez-moi de parler du suivi du modèle de données. En termes simples, il existe quatre stratégies: la spécification est meilleure, le taux de réutilisation est plus élevé, le taux d'utilisation est plus élevé, le niveau de dépendance n'est pas trop profond.

La spécification est meilleure: tous ceux qui font du développement savent qu'il doit y avoir des spécifications de base pour faire les choses, comme la dénomination des tables, et il est nécessaire de pouvoir voir clairement à quel domaine d'activité il appartient, à quel module de produit sert, s'il faut exporter les données de manière synchrone ou divulguer la vue, et actualiser le cycle Comment, attendez, tout cela doit être normalisé par nom, donc lorsque les spécifications des données sont définies, vous pouvez cibler les statistiques qui ne répondent pas aux spécifications et rectifier dans un date limite.

Le taux de multiplexage doit être élevé: celui-ci est pour la couche CDM. Dans la théorie de la modélisation dimensionnelle, la fonction principale du MDP est d'améliorer le taux de réutilisation des données. Par conséquent, le MDP (y compris DWD, DWS et DIM) ne doit pas être un développement pour la demande, mais des statistiques pour les processus métier. Le comptage du nombre de dépendances en aval de chaque table dans la couche CDM peut évaluer efficacement le niveau de construction de la couche publique. Les MDP qui sont rarement utilisés par les gens ne sont pas qualifiés.

Le taux d'utilisation doit être élevé: celui-ci concerne la couche ODS. ODS stocke généralement le plus de données, donc si les données ODS ne sont pas suffisamment citées, alors son activité n'est généralement pas si importante, alors la période de stockage de la table ODS peut être réduite de manière appropriée, et entre le nombre de références et la période de stockage Trouver un équilibre. Bien sûr, il doit y avoir des exemples spéciaux, mais spécial ne représente pas la situation générale. De plus, certaines tables ADS citent directement ODS. Si l'entreprise est au début de son développement, cela peut être envisagé, mais s'il s'agit d'une entreprise mature, cela devrait être le cas. La méthode de distinction consiste toujours à déterminer le domaine métier et le produit auquel l'expression appartient par la dénomination de la table, et à le lier à la maturité du domaine métier.

Le niveau de dépendance n'est pas trop profond: celui-ci est pour la couche ADS. Le problème le plus gênant pour les utilisateurs de données est que la couche de données va et vient et que le lien est si long qu'il est trop long à utiliser. Par conséquent, la profondeur de dépendance de la couche ADS elle-même, y compris les statistiques de la profondeur de dépendance maximale et des différentes profondeurs de dépendance, peut voir certains problèmes dans la construction de la couche ADS.

En plus de surveiller la complexité de l'entreprise, il existe quatre stratégies: la longueur totale de la liaison, le montant total du code, l'estimation du coût total et la gestion de projet. Le principe de la surveillance de la complexité de l'entreprise est de trier les tables d'exportation de produits ADS de base et de trier les tables ADS correspondant à chaque module ou interface de produit.

Longueur totale de la liaison: calculez la longueur totale du chemin entre ODS et ADS pour une table d'exportation de produits. Plus la liaison est longue, plus les ressources de stockage et de ressources sont occupées.

Montant total du code: calculez la quantité totale de codes impliqués dans une table d'exportation de produits d'ODS vers ADS. Plus la quantité de code est élevée, plus les ressources informatiques sont consommées.

Estimation du coût total: inférez le coût des données consommées par un produit en fonction de la quantité de données stockées dans la table de liaison et de la consommation des ressources de la machine.

Gestion de projet: de la cause profonde des besoins de gouvernance chaotiques, cette question ne sera pas abordée ici.

Bien sûr, au fur et à mesure que la compréhension des données s'approfondit, nous effectuerons des analyses plus précieuses, comme analyser si chaque SQL est écrit de manière raisonnable, etc. Mais quoi qu'il en soit, avec des indicateurs statistiques, on peut voir la situation globale et faire une gouvernance ciblée.

| 0xFF Stratégie de gouvernance des données à court, moyen et long terme

Tout comme tout plan comporte trois stratégies «supérieure, moyenne et inférieure», la résolution des problèmes nécessite également une stratégie «courte, moyenne et longue».

Le plan à court terme se concentre sur l'amélioration des indicateurs statistiques susmentionnés et sur la résolution rapide de certains problèmes de bas niveau. Car une fois que l'on a le concept d'indicateurs, on peut mobiliser l'initiative subjective des étudiants en R&D.

Le plan à mi-parcours devrait organiser le système de structure des données, y compris la mise en place d'un système normatif complet et d'une structure technique, et influencer chaque seconde par des méthodes méthodologiques et culturelles.

L'innovation technologique à long terme a été utilisée pour réaliser l'optimisation automatique des tâches et aider à réduire la charge de travail de la maintenance et de la gestion des données, comme le concept récemment populaire de «cloud native».

Mais quelle que soit la stratégie, elle doit tenir compte de la question de la dette historique et de la manière d'arrêter d'ajouter de nouvelles dettes.

La solution parfaite n'existe généralement pas, et c'est le choix de la plupart des gens de s'installer. Lorsque la technologie ne peut pas résoudre le problème, vous pouvez utiliser des idées alternatives pour le résoudre.

Bien entendu, la gouvernance des actifs de données au sens large devrait être étendue à plus d'aspects, tels que la sécurité des données, comme la question des îlots de données, dont chacun nécessite une théorie systématique à expliquer.

Mais la dernière chose dont je veux parler, c'est que cela implique en fait le problème du choix d'un travail. L'amélioration de l'efficacité de l'entreprise n'est rien de plus que deux points: la réduction des coûts et l'amélioration de l'efficacité. L'amélioration de l'efficacité peut être résolue du point de vue de l'analyse des données, et la réduction des coûts doit être encouragée par la gouvernance des actifs de données. Lors du choix d'une carrière, si vous utilisez simplement les outils avec compétence, il est facile d'être éliminé et de maîtriser la méthodologie de réduction des coûts et d'amélioration de l'efficacité, et de faire face à la crise de la quarantaine, vous devez être plus à l'aise.

Je suppose que tu aimes

Origine blog.csdn.net/gaixiaoyang123/article/details/112634786
conseillé
Classement