Système de catégories de balises (méthodologie de conception d'actifs de données orientée métier) - Notes de lecture 1

séquence

1. L'étiquetage des données est comme le calcul (le différentiel consiste à diviser une grande chose en parties suffisamment petites, et l'intégrale consiste à organiser et à synthétiser les petites parties divisées). Le processus de conception des balises est un processus qui consiste à "différencier" complètement divers objets, à les analyser et à les diviser pour être surprenant ; et le processus d'utilisation des balises consiste à assembler et à utiliser ensemble les balises d'objet impliquées dans la scène, ce qui constitue une "intégration". processus.

2. Le traitement traditionnel des données constitue souvent une connexion rapide entre l'entreprise et les données, puis retour à l'entreprise. Il convient aux petites entreprises qui ont des restrictions strictes quant à la rapidité de production du service de bureau de données requis et qui se concentrent uniquement sur un certain scénario d'application locale actuel.

3. Le traitement des données labellisées signifie que les données doivent être réutilisées à grande échelle après avoir été standardisées et organisées. Il s'agit d'un mode intermédiaire : toutes les données générées seront stockées et numérotées, et les éléments d'étiquette seront vérifiés pour voir s'ils sont complets, standardisés et exacts. Standardisez et encapsulez les informations, technologies et fonctions fréquemment utilisées pour les grands groupes d'entreprises avec des scénarios commerciaux diversifiés : en les construisant une seule fois et en les utilisant de manière répétée, vous pouvez réduire les coûts et créer des économies d'échelle, et en même temps, vous pouvez également accumuler des données de base. pour l'entreprise.

4. L'essence même du middle office est de rassembler des capacités, des technologies et des outils réutilisables pour aider l'entreprise front-end à réagir rapidement aux changements. La plate-forme intermédiaire dépasse par définition le cadre technique et les domaines système qu'elle implique ne se limitent pas au niveau technique. La construction de centres de données axée sur la technologie va dans le mauvais sens (créer un environnement de développement intégré pour un développement à guichet unique, utiliser des outils de gestion des données pour gérer les normes de données, la sécurité des données et les métadonnées, et utiliser la gestion du réseau API pour surveiller les appels vers toutes les interfaces de service. ) .

5. Les actifs de données sont des ressources de données qui peuvent apporter une valeur économique à l'entreprise. La valeur du centre de données est de permettre aux entreprises d’essayer rapidement de commettre des erreurs, ainsi que de trouver et d’exploiter la valeur commerciale des données grâce à des milliers d’expériences.

6. Les concepteurs d'actifs de données ont émergé au fur et à mesure que les temps l'exigent, se concentrant sur l'étude des étiquettes requises par l'entreprise, développant leurs conceptions et les répertoriant dans la bibliothèque d'actifs de données du centre de données, afin que le personnel de l'entreprise puisse visualiser, sélectionner et utiliser les étiquettes. eux-mêmes, raccourcissant ainsi considérablement le cycle de vie des actifs de données, réduisant les coûts d'essais et d'erreurs commerciaux et maximisant la valeur des données grâce à la chaîne de poussée inverse.

Cause du chapitre 1 : 6 dilemmes liés au Big Data

1. Les îlots de données ne peuvent pas être connectés

1. Raisons techniques

Les bases de données ou les méthodes de stockage de données de différents fabricants sont comme des îles sous le niveau de la mer, incapables de se connecter les unes aux autres. Cette situation ne peut pas être connectée pour des raisons techniques. Puisqu'il s'agit d'une raison technique, l'échange, l'agrégation et la connexion des données peuvent être effectués par des moyens techniques en constante évolution.

2. Raisons du système de gestion

L'utilisation des données est généralement divisée en trois niveaux :

  • Utilisation des données 1.0 : Auto-générées et auto-utilisées, c'est-à-dire que les données des départements et des entreprises sont traitées et utilisées par elles-mêmes.
  • Utilisation des données 2.0 : autogénération et autre utilisation, c'est-à-dire que les données des départements et des entreprises sont produites, traitées et autorisées à être utilisées par d'autres.
  • Utilisation des données 3.0 : utilisation publique symbiotique, c'est-à-dire que plusieurs départements ou plusieurs entreprises intègrent et traitent les données, et après autorisation, elles peuvent être utilisées par plusieurs départements et entreprises. Le partage symbiotique n'est pas une manière barbare de regrouper toutes les données et de les récupérer directement à partir du pool de données lors de leur utilisation. La symbiose et le partage signifient que l'accès, la production, l'utilisation et la gestion des données sont entrés dans une phase systématique ; les sources, l'état actuel et la destination de toutes les données sont propres et traçables, le cycle de vie est géré efficacement et l'utilisation est régie par des règles. .

Chaque département traite ses propres données et forme des rapports d'analyse pour en découvrir les raisons et apporter des améliorations ciblées, réalisant ainsi un petit cycle de numérisation des entreprises - la businessisation des données. De cette manière, d’une part, la valeur des données est reflétée, mais d’autre part, cela crée également des barrières à l’échange de données entre les services. Le manque de partage de données entre les départements provient du manque de systèmes de gestion de l’entreprise et il existe des cloisons très épaisses au sein de l’entreprise.

3. Raisons de la visualisation des données

Les départements travaillent en silos et les données ne sont pas connectées. Parce que la technologie et les outils peuvent être rapidement acquis par l’apprentissage ou l’achat direct. Les problèmes techniques sont la chose la plus simple à résoudre, car la technologie et les outils peuvent être rapidement obtenus par l’apprentissage ou l’achat direct.

Ce qui est un peu plus difficile à résoudre est le problème du non-partage des données entre les services, qui doit souvent être coordonné et résolu par le siège de l'entreprise. Les données sont une ressource particulière, renouvelable et dont la valeur intégrée est supérieure à la somme de leurs valeurs originales : plus elles sont utilisées, plus elles prennent de la valeur. Par conséquent, ce n’est qu’en rassemblant les données qu’une reproduction complète du monde des données peut être obtenue.

La chose la plus difficile à résoudre est le problème des biais cognitifs dans les données descendantes des entreprises. Les données ont un seuil cognitif. Tous les employés de l'entreprise ne savent pas comment lire ou exploiter les données, et le personnel chargé des données n'a pas la capacité d'expliquer les données de manière vivante au personnel de l'entreprise. Par conséquent, les entreprises ont besoin d'une terminologie de conversion entre les données et les affaires pour aider le personnel commercial, le personnel opérationnel, le personnel fonctionnel, etc. à comprendre rapidement les données, à maîtriser les compétences d'application des données, puis à réaliser l'importance des données et à parvenir à un partage symbiotique des données.

Lorsqu’une entreprise doit résoudre efficacement le problème des îlots de données, il est recommandé d’adopter une approche simple :

  • Façonner la compréhension des données de l’entreprise
  • Promouvoir l’intégration des données entre les services de données
  • Choisissez une technologie ou des outils pour la synchronisation des données

2. Construction façon cheminée, réinventer la roue

1. La cheminée devient plus haute et plus difficile à soutenir.

Lors de la mise en œuvre du travail de tri des données à partir du département, les jeunes ingénieurs de données n'ont pas pleinement pris en compte le système de tri, de nettoyage et de traçabilité des données sous-jacentes et ont effectué un travail rapide de développement des données ; au cours du processus de développement, il y a également eu un manque de logique de données et d'analyse de modélisation.Réflexions et conseils sur le niveau. Tout est orienté métier : afin de produire les résultats finaux dans les délais, il faut ignorer si les étapes intermédiaires sont conformes et raisonnables et si les procédures de code sont robustes et correctes. La construction de données réalisée de cette manière est très facile à incliner et à réduire.

2. La gouvernance des données est difficile à réussir localement

Les entreprises doivent utiliser les données pour refléter la situation réelle de l'entreprise et ce n'est que lorsque la logique de traitement des données est précise que les résultats finaux des données peuvent refléter l'essence du problème. Si la construction de données est une approche de type cheminée pour diverses entreprises et qu'il n'existe pas de service unifié pour la gestion des sources, alors la gouvernance des données de Hannan sera en partie un succès.

3. Des investissements répétés peuvent facilement conduire à un gaspillage de ressources.

Le plus grand inconvénient de la construction de données en forme de cheminée est qu'elle oblige les entreprises à investir de manière répétée dans la construction de données, ce qui entraîne un gaspillage de ressources. Si chaque département construit son propre système de données, des problèmes de stockage et de calcul répétés surviendront, entraînant un gaspillage de ressources. Ce gaspillage deviendra de plus en plus important à mesure que la quantité de données augmentera.

3. Chacun parle à sa manière et il n’existe pas de calibre unifié

La méthode de nettoyage des données originales, la logique statistique des données intermédiaires et les différences récapitulatives des données de résultat affecteront toutes les résultats finaux des données. Si une entreprise doit partager ou divulguer des données en externe, elle doit également sélectionner avec soin des indicateurs pour éviter les incohérences dans le calibre des données. Il existe trois suggestions pour aider les entreprises à unifier leurs normes de données :

  • Former des processus et des spécifications standard pour le travail sur les données
  • Effectuer un examen complet des éléments d'information sur les données
  • Autoriser le service données à définir de manière homogène des indicateurs.

4. Parlant comme un poulet et un canard, il est impossible de pénétrer dans la couche business

  • Le personnel des données effectue des présentations de données basées sur son système cognitif, immergé dans son propre monde de données et ne s'intègre pas dans la façon de penser du personnel de l'entreprise. En conséquence, la connaissance des données est trop professionnelle et manque d'interprétation, de transformation et de cas appropriés. ... Expliquez, les gens d'affaires ne peuvent pas comprendre.
  • Les hommes d’affaires rencontrent également des obstacles à l’apprentissage des données. Les personnes travaillant dans les départements des affaires, des opérations et du renseignement utilisent souvent la pensée perceptuelle pour comprendre les choses, et ne sont pas habituées à la pensée rationnelle requise pour l'apprentissage des données, elles s'intéressent donc rarement aux données froides.

5. Le cauchemar du personnel chargé des données, la gouvernance des données ne finira jamais

1. Le seuil professionnel pour la gouvernance traditionnelle des données est relativement élevé.

La gouvernance traditionnelle des données implique la formulation unifiée de normes de données, la classification hiérarchique de la sécurité des données, le contrôle et l'optimisation itérative de la qualité des données, le tri et l'archivage des éléments de données un par un et la conduite de l'ensemble du cycle de vie des données. Suivre et construire un mécanisme de traçabilité. . . Ces tâches nécessitent des contrôleurs de données dotés d'une vision plus élevée pour considérer la situation globale, et des exécuteurs spécifiques doivent maîtriser des compétences professionnelles en matière de gouvernance des données afin d'effectuer des opérations et des connexions spécifiques.

2. La gouvernance traditionnelle des données implique de nombreux secteurs et a un long cycle.

Lors de la mise en œuvre de projets de gouvernance des données, vous pouvez être confronté à des problèmes de connexion entre différents secteurs. Par conséquent, un ingénieur en chef de la gouvernance est nécessaire pour coordonner la planification : déterminer les objectifs et les principes de gouvernance unifiés, organiser des plans et des chemins de gouvernance raisonnables et sélectionner des outils et produits de gouvernance adaptatifs. pour les objectifs et les processus, la sélection et la formation des équipes de gouvernance des données, la formulation de mécanismes de travail pour assurer le bon déroulement de la gouvernance des données, etc. Cependant, au cours du long processus de gouvernance, des problèmes inévitables peuvent survenir tels que le remplacement du personnel, le manque d'informations, l'omission d'éléments, etc.. Ce sont autant de difficultés auxquelles il faut faire face dans le travail de gouvernance des données.

3. Le travail de gestion est encore et encore médiocre et la gestion n'est jamais terminée.

  • Les objectifs fixés lors de la phase initiale du travail de gouvernance devront probablement être révisés à mi-parcours de la gouvernance en raison de changements dans des liens importants tels que la source, la production et l'utilisation des données, et le travail de gouvernance devra être refait.
  • Une fois la gouvernance des données terminée, dans le processus d'utilisation de certaines parties des données, le côté commercial peut mettre en avant la nécessité d'un ajustement de la qualité ou d'une modification du code de développement des données d'origine, et d'autres modules connexes de gouvernance des données doivent être modifiés en conséquence.

4. Il est difficile d’étendre le travail de gouvernance au monde extérieur et d’obtenir une coopération.

Les projets traditionnels de gouvernance des données sont souvent menés par le service technique ou le service données, mais le service données affecte en réalité intelligemment les maillons intermédiaires du cycle de vie des données, c'est-à-dire la génération et le traitement des données. Les deux extrémités des données (côté source et côté utilisateur) ne sont pas sous le contrôle du service des données, mais plutôt sous le contrôle du service commercial ; la gouvernance des données comprend de nombreuses tâches importantes, telles que les normes de données, la sécurité des données et la qualité des données. . , le cycle de vie des données, etc., sont tous des éléments de travail à lien complet. Sans coopération et soutien des deux côtés, ils ne peuvent pas être menés à bien.

5. La gouvernance est trop difficile et constitue un projet systématique

La gouvernance des données est un projet systématique comportant de nombreux modules, une longue durée, des compétences élevées, une grande influence de l'environnement externe et nécessite la liaison et la coopération de plusieurs départements. Si cette ingénierie système n'est vigoureusement promue que par le service des données, il sera difficile de bien faire.

6. L’embarras du département data, centre de coûts étouffé par le sort

La principale raison de la faiblesse du Département des données est que le Département commercial est fort, comme en témoigne le positionnement fonctionnel du Département et la force motrice du projet.

1. Positionnement des fonctions du département : le département commercial est le centre de profit et le département des données est le centre de coûts.

  • En tant que centre de profit de l'entreprise, le département commercial continue de soutenir le département R&D back-end, le département de production, les départements fonctionnels, etc. Par conséquent, le département commercial a naturellement le droit de parler et peut recevoir le plus de ressources et de soutien de la part du département commercial. toute l’entreprise.
  • Le service données est considéré comme un centre de coûts. La personne en charge des données doit toujours expliquer au président-directeur général pourquoi tant d'investissements dans l'infrastructure de données sont nécessaires, pourquoi le budget des données ne peut pas être réduit et quelle valeur les données peuvent apporter à l'entreprise.
  • Le paramétrage des KPI du service données est souvent l'auto-construction et l'autonomisation externe : terminer la conception de l'architecture de données d'entreprise, terminer la construction de la base de la plate-forme de données, terminer le tri du catalogue d'actifs de données et terminer le développement des données. système de produit ; prendre en charge l'utilisation à grande échelle des données par le service commercial et prendre en charge les données. L'entreprise autonome continue de croître, prend en charge la présentation des données et la prise de décision en matière de données dans les opérations et la gestion de l'entreprise, et prend en charge les stratégies de transformation numérique de l'entreprise. . . . En fait, aux yeux des chefs d'entreprise et du personnel financier, l'entrée du Département des données est un coût de support et le poste de revenu est nul.

2. Force motrice du projet : Le service commercial se porte bien, mais le service données est en difficulté.

  • Les plans de projet menés par les départements métiers sont souvent défavorables, et les objectifs et valeurs des projets data sont souvent basiques et ennuyeux ;
  • Essayez de traiter le service de données comme une entreprise de données. Les serveurs, sources de données, plates-formes d'outils, etc. qu'il achète peuvent être considérés comme un support de coûts. Les services de données et les applications de données qu'il produit peuvent être considérés comme des produits de données vendus à un prix fixe. Chaque département commercial a besoin d'une répartition quantitative ou d'une comptabilité financière des revenus pour la valeur des données, qui constitue le revenu bénéficiaire du département de données.
  • Plus la valeur de réutilisation des actifs de données est élevée, plus le service de données sera robuste et efficace, et plus le retour par unité d’investissement sera objectif.

Guess you like

Origin blog.csdn.net/baidu_38792549/article/details/125405124