Pratique de construction d'entrepôts de données : comment améliorer l'efficacité et garantir la qualité des données grâce à la construction d'entrepôts de données

Auteur : Zen et l'art de la programmation informatique

1. Introduction

Avec le développement rapide de l’économie Internet, les consommateurs du monde entier sont de plus en plus exigeants en matière de voitures. À l’échelle mondiale, les opérateurs de bus publics (PSA) se livrent une concurrence féroce, notamment Tesla aux États-Unis, Dongfeng à Shanghai, Ford en Chine, etc. Le marché mondial des bus connaît une croissance explosive chaque année. Parmi eux, la position de leader des États-Unis a été contrôlée par les constructeurs automobiles chinois, et l'essor de nouvelles pistes a également apporté d'énormes opportunités à PSA. Cependant, Tesla aux États-Unis a également été confrontée à de nombreuses difficultés dans le processus de cotation, et il est difficile de dire si elle a vraiment réussi à se tenir sur son propre terrain. Avec la force croissante de PSA, la concurrence entre les différents fournisseurs devient de plus en plus féroce. Comment garantir l'exactitude, l'exhaustivité et l'actualité des données de l'entreprise est devenu l'une des difficultés de l'industrie internationale des bus. Par conséquent, la manière de construire un entrepôt de données, en tant qu’infrastructure de données importante, est très importante pour les compagnies de bus.
Google est la plus grande société de moteurs de recherche au monde. Elle dispose d'une équipe solide et de ressources abondantes, et peut fournir des solutions haut de gamme, telles qu'une plate-forme d'analyse de données, un service d'apprentissage automatique d'IA, etc. Fondée en 2007, la société de mégabus Google F1 est désormais membre de la plus grande alliance mondiale de véhicules autonomes (AUTOLIV). Selon les informations publiées sur le site Web de la F1, en 2019, la société compte plus de 4 000 employés, son siège social est à New York, aux États-Unis, et elle exerce des activités en Amérique du Nord, en Europe, en Asie, dans le Pacifique Sud et en Afrique. Les produits et services de l'entreprise continuent de dépasser les attentes des utilisateurs grâce à leur haut niveau d'automatisation. Dans le même temps, il est nécessaire de s’appuyer sur une prise de décision basée sur les données en termes de gestion de projet et de vente. La mise en place d’un entrepôt de données est donc cruciale pour la F1.
Cet article décrira la pratique de la construction d'un entrepôt de données F1 sous les aspects suivants :

  1. collecte de données
  • présentation du concept
  • Pas
  • Méthodes d’assurance qualité des données
  1. Nettoyage et préparation des données
  • présentation du concept
  • Pas
  • Méthodes d’assurance qualité des données
  1. Stockage et chargement des données
  • présentation du concept
  • Pas
  • Méthodes d’assurance qualité des données
  1. Analyse et visualisation des données
  • présentation du concept
  • Pas
  • Méthodes d’assurance qualité des données
  1. Formation et déploiement de modèles
  • présentation du concept
  • Pas
  • Méthode d'assurance qualité des données
    Grâce à cet article, les lecteurs peuvent comprendre comment la société F1 améliore son efficacité et garantit la qualité des données grâce à la construction d'un entrepôt de données. A travers différents chapitres, l'auteur décrit en détail les connaissances pertinentes et le fonctionnement de chaque lien. Dans le même temps, l'auteur propose également la méthodologie correspondante pour guider chacun dans la réalisation de la construction de l'entrepôt de données et fournir des outils et moyens efficaces permettant à la F1 d'améliorer son efficacité. Enfin, l'auteur a également fait un aperçu de l'orientation future du développement et a présenté les perspectives et les suggestions de cet article, j'espère que les lecteurs l'apprécieront.

2. Introduction générale

Profil de l'entreprise F1

F1 Corporation est un grand opérateur de bus comptant plus de 4 000 employés dont le siège est à New York, aux États-Unis. L'entreprise a remporté avec succès la première place au concours AUTOLIV 2018 grâce à l'IA et aux méthodes de gestion basées sur les données, et recherche activement des concepts de gestion et un positionnement de marque innovants. Le fondateur de la F1 a déjà été PDG de l'entreprise et a remporté en 2012 le prix technologique le plus prestigieux de l'industrie automobile. Selon le site Internet de la F1, l'objectif de la F1 est de devenir l'alliance de voitures autonomes la plus complète au monde. De plus, l’entreprise s’engage à devenir un constructeur automobile de classe mondiale.

Introduction au centre de données F1

Afin de répondre aux besoins de construction des centres de données de la F1, les plateformes cloud telles que le New York University Data Science Lab (NYU Data Science Lab) et Google Cloud Platform fournissent un environnement de traitement de Big Data basé sur le logiciel open source Hadoop. Le système est divisé en trois modules, à savoir l'acquisition de données, le nettoyage des données, le stockage et le chargement des données, l'analyse et la visualisation des données, ainsi que la formation et le déploiement de modèles. L'ensemble du système est composé de composants open source tels qu'Apache Kafka, Apache Cassandra, Elasticsearch, Spark, etc. Actuellement, l'ensemble du système prend en charge le traitement de données au niveau du téraoctet, ce qui peut répondre aux besoins d'acquisition, d'analyse et de visualisation de données de la société F1.

3. Explication des concepts et termes de base

Entrepôt de données et lac de données

Entrepôt de données

Un entrepôt de données est un système qui stocke de manière centralisée toutes les données et est utilisé pour aider les entreprises dans des analyses et des prises de décision complexes. Il est généralement organisé en différentes collections de données, telles que des tables de dimensions et des tables de faits, et est conservé, mis à jour et récupéré à l'aide de techniques de traitement de données centralisées. L'entrepôt de données est situé dans le centre de données de l'entreprise ou dans un lieu décentralisé et est connecté via une interface d'accès aux données intégrée. L'entrepôt de données est utilisé pour prendre en charge des requêtes d'analyse complexes, et les résultats de l'analyse peuvent être utilisés pour soutenir la prise de décision de l'entreprise. Un entrepôt de données peut améliorer les performances et la flexibilité grâce à une structure logique hiérarchique, rendant les décisions d'entreprise plus précises.

Lac de données

Un lac de données est un périphérique de stockage infini pouvant stocker tous types de données, qu'elles soient structurées ou non. Il aide les entreprises à ingérer et à traiter d'énormes quantités de données et à effectuer des analyses de données avec plus d'efficacité et de rapidité. Les lacs de données sont conçus pour stocker des données brutes et peuvent être complétés par des données provenant d'autres sources si nécessaire. Les lacs de données aident les entreprises à résoudre des problèmes tels que l'archivage des données, la lacification des données, la gouvernance des données et la portabilité des données.

modèle d'entrepôt de données

Un schéma d'entrepôt de données est une architecture d'un entrepôt de données qui définit le contenu, la structure et le schéma d'un entrepôt de données. Le schéma de l'entrepôt de données définit l'emplacement des données dans l'entrepôt, leurs relations et leurs attributs. Un schéma d'entrepôt de données peut être défini conjointement par plusieurs documents ou modèles de spécifications, qui décrivent conjointement le contenu, le flux de données, le catalogue, le domaine, le modèle entité-relation, la modélisation dimensionnelle et la table de faits de l'entrepôt de données.

Processus ETL (Extract Transform Load)

ETL est une partie importante de la construction d'un entrepôt de données. Le processus ETL consiste à extraire des données de diverses sources dans un seul lac de données, à les transformer en un formulaire de modèle de données approprié et à les charger dans un entrepôt de données. Le processus ETL utilise un langage de script rapide et facile à utiliser. Ses principales fonctions sont les suivantes :

  1. Ingérez des données dans un seul lac de données ;
  2. nettoyer, valider, normaliser et transformer les données ;
  3. Chargez les données dans l'entrepôt de données.

Processus ELT (Extract-Load-Transform)

Le processus ELT (Extract-Load-Transform) est une autre façon de construire un entrepôt de données. ELT utilise des techniques de mise en miroir de bases de données ou de réplication de données pour synchroniser, nettoyer, transformer et charger les données à partir de la source de données principale. Par rapport à ETL, il présente les avantages suivants :

  1. Plus facile à optimiser les données ;
  2. Peut gérer des types de données et des associations complexes ;
  3. Cela peut améliorer la concurrence et la tolérance aux pannes du traitement des données.

Base de données distribuée

Une base de données distribuée fait référence à une base de données dans laquelle les emplacements de stockage de données dans un système distribué sont répartis sur différentes machines. Le plus grand avantage des bases de données distribuées est l’évolutivité, car l’ajout de machines peut faire évoluer les performances de manière linéaire. Les bases de données distribuées utilisent généralement des bases de données NoSQL comme moteurs de stockage. L’avantage des bases de données NoSQL est qu’elles peuvent utiliser d’énormes ressources informatiques pour traiter d’énormes quantités de données sans être contraintes par une structure de base de données spécifique.

Langage SQL

SQL est l'abréviation de Structured Query Language, c'est-à-dire Structured Query Language. SQL est un langage standard de gestion de bases de données relationnelles. SQL prend en charge des opérations telles que l'insertion, la suppression, la mise à jour et l'interrogation de données, et peut être utilisé pour implémenter des fonctions telles que l'entrée, la sortie, la conversion, l'agrégation et la création de rapports de données dans un entrepôt de données.

modèle de données physique

Un modèle de données physique est un modèle de données qui décrit la façon dont les données circulent sur un disque, une bande, une baie de disques ou un réseau d'ordinateur. Il existe certaines différences entre le modèle de données physique et le modèle de données relationnel. Par exemple, les collections dynamiques ne sont pas prises en charge et seules les tables bidimensionnelles statiques sont prises en charge.

modèle de données virtuel

Un modèle de données virtuel fait référence à une forme de modèle de données. Il comprend trois types : modèle de données physique, modèle de logique métier et modèle de règles. Il s'agit d'une méthode de création et d'organisation des données en fonction des besoins de l'organisation et des caractéristiques du système d'information, et de leur application au processus de développement du système. Le modèle de données virtuel est composé de trois modèles : le modèle entité-relation, la modélisation dimensionnelle et la table de faits.

Technologie BI

La technologie Business Intelligence (BI) fait référence à la transformation des données en informations pour la compréhension commerciale grâce aux technologies de l'information. La technologie BI comprend cinq étapes : la collecte de données, le prétraitement des données, l'analyse des données, l'affichage des données et le reporting des données.

Technologie OLAP

Le traitement analytique en ligne (OLAP) est une technologie de traitement de données, qui est une technologie permettant de traiter des cubes et de générer des rapports d'informations. La technologie OLAP est une technologie qui traite et analyse les données de manière centralisée afin que les utilisateurs puissent acquérir, analyser et comprendre facilement et intuitivement les données requises.

Technologie Hadoop

Hadoop est un framework informatique distribué open source qui permet le traitement par lots et l'analyse hors ligne des données sur plusieurs serveurs et produit des résultats potentiellement précieux. Hadoop contribue à améliorer les performances de traitement et les capacités de traitement simultané des entrepôts de données.

Technologie de la ruche

Hive fait partie de l'écosystème Hadoop et est une infrastructure d'entrepôt de données distribuée dans Hadoop. Hive fournit un ensemble de langages de requête basés sur SQL pour les entrepôts de données. Les utilisateurs peuvent importer des données dans HDFS via des commandes SQL, puis soumettre ces commandes à Hadoop pour exécution afin de générer des données de résultat. Hive fournit des solutions rapides et efficaces aux requêtes commerciales complexes.

HBase pour les fichiers de données

HBase est un sous-projet du projet Apache Hadoop. HBase est une base de données NoSQL distribuée basée sur Hadoop/Java, qui est une base de données de stockage en colonnes. HBase est basé sur un système de fichiers distribué qui peut maintenir un contrôle de version précis pour des millions de colonnes. HBase peut fournir des capacités de lecture aléatoire efficaces, ainsi que des capacités d'accès aux données à faible latence lorsque les données sont écrites et mises à jour.

Assurance qualité des données

L'assurance qualité des données (Data Quality Assurance) est une ingénierie systématique visant à garantir que les données produites, échangées, transmises, reçues, stockées ou traitées par une organisation répondent à des exigences spécifiées. Le but de l'assurance qualité des données est de garantir que les données sont fournies de manière précise, complète et en temps opportun pour être utilisées par différents départements afin d'assurer la sécurité des informations, la satisfaction des clients et le progrès de l'entreprise. L’assurance qualité des données peut être manuelle ou automatisée.

enquête de données

L'investigation des données est un processus de recherche et d'analyse de données. Les enquêtes sur les données peuvent aider les entreprises à découvrir les faux positifs et les failles de leurs données et à identifier les actions à améliorer. L’investigation des données est une étape cruciale dans l’utilisation efficace des données.

4. Principes de base de l'algorithme, étapes de fonctionnement spécifiques et explication des formules mathématiques

collecte de données

L'acquisition de données consiste principalement à collecter, organiser et filtrer les données. Ce processus implique plusieurs liens tels que l'exploration du Web, le nettoyage des données, la conversion des données et le téléchargement des données. Les principales technologies incluent la sélection des sources de données, les méthodes de collecte de données, la déduplication des données, le stockage des données, etc.

  1. Sélection de la source de données : Tout d’abord, quel type de source de données devons-nous choisir ? Peut choisir parmi différentes sources de canaux. Nous pouvons choisir certains ensembles de données existants ou créer nos propres ensembles de données.
  2. Méthode de collecte des données : Après avoir sélectionné la source de données, nous devons considérer la méthode de collecte. En général, il existe deux manières de collecter des données. La première consiste à appeler une interface tierce sous forme d'API, et la seconde consiste à écrire vous-même un programme d'exploration.
  3. Nettoyage des données : avant la collecte de données, nous devons effectuer un nettoyage des données. Le nettoyage des données fait référence au travail de suppression des données sales, de normalisation des données, de fusion des données, de détection des anomalies des données, de conformité des données et de protection de la confidentialité des données. Nous pouvons combiner des expressions régulières, des dictionnaires de mappage, etc. pour le nettoyage des données.
  4. Transformation des données : une fois le nettoyage des données effectué, nous devons effectuer une transformation des données. La transformation des données fait référence à la conversion des données d'un format à un autre. Nous pouvons utiliser Python ou d'autres langages de programmation pour traiter les données.
  5. Téléchargement des données : après le nettoyage et la conversion des données, nous devons télécharger les données dans l'entrepôt de données. Un entrepôt de données est un système qui stocke de manière centralisée toutes les données et prend en charge des analyses et des prises de décision complexes.

Nettoyage et préparation des données

Le nettoyage et la préparation des données visent principalement à effectuer des opérations telles que la déduplication, la standardisation des données et la normalisation des données sur les données. Dans cette étape, nous effectuerons des opérations telles que le débruitage, la standardisation et la normalisation sur les données.
Débruiter les données : la première étape du nettoyage des données consiste à débruiter les données. Le débruitage des données fait référence à la suppression des données non pertinentes, telles que les valeurs nulles, les valeurs en double, les enregistrements en double, etc. Nous pouvons choisir d'utiliser des instructions de requête SQL ou des méthodes statistiques pour le débruitage des données.
Standardisation des données : la standardisation des données fait référence au traitement des données tel que le formatage et l'encodage. Le but de la standardisation des données est de rendre les données uniformes et de faciliter leur analyse.
Normalisation des données : la normalisation des données, également connue sous le nom de contraintes de données, fait référence à la normalisation de la portée et des caractéristiques des données. Le but de la normalisation des données est de maintenir la valeur des données dans une plage raisonnable.

Stockage et chargement des données

Le stockage et le chargement des données sont principalement destinés au stockage persistant des données. Ce processus comprend l'intégration des données, le formatage des données, la compression des données, la classification des données, le partitionnement des données, etc.

  1. Intégration des données : l'intégration des données fait référence à la fusion de plusieurs ensembles de données sources selon certaines règles. Le but de l’intégration des données est de faciliter l’analyse des données.
  2. Formatage des données : le formatage des données fait référence au formatage des données afin qu'elles puissent être directement importées dans une base de données.
  3. Compression des données : la compression des données fait référence à la compression des données pour réduire l'espace de stockage. La compression des données peut réduire la redondance des données et les coûts de stockage des données.
  4. Classification des données : la classification des données fait référence à la division des données en différents blocs de stockage. La classification des données peut améliorer l'efficacité de la requête de données.
  5. Partition de données : la partition de données fait référence à la division des données en plusieurs petites parties, et chaque petite partie existe indépendamment sur le disque dur. Le partitionnement des données peut améliorer l'efficacité des requêtes.

Analyse et visualisation des données

L'analyse et la visualisation des données font référence à l'analyse statistique et à la visualisation des données. Le but de l’analyse et de la visualisation des données est de mieux comprendre les tendances changeantes et les lois des données. L'analyse et la visualisation des données peuvent analyser les données sous plusieurs perspectives, telles que les tendances historiques, la distribution, l'association de données, les événements chauds, etc.

  1. Statistiques des données : les statistiques des données font référence à l'analyse statistique des données pour trouver des modèles et des régularités dans les données. Les statistiques de données peuvent aider les analystes de données à détecter des problèmes et à découvrir de nouveaux modèles économiques.
  2. Visualisation des données : la visualisation des données fait référence à l'utilisation de graphiques pour présenter des données. La visualisation des données peut aider les analystes de données à identifier rapidement des modèles et à découvrir des informations cachées.

Formation et déploiement de modèles

La formation et le déploiement de modèles font référence à l'utilisation de données pour former des modèles afin de générer des modèles pouvant être utilisés pour les décisions commerciales. La formation et le déploiement du modèle incluent généralement des étapes telles que la sélection du modèle, la formation du modèle, l'évaluation du modèle, la publication du modèle et la surveillance du modèle.

  1. Sélection du modèle : la sélection du modèle fait référence au type de modèle le plus approprié. La sélection de modèles peut aider les entreprises à décider quels types de modèles adopter et quels algorithmes utiliser.
  2. Formation du modèle : la formation du modèle fait référence à l'ajustement des paramètres du modèle en fonction de l'ensemble de données existant, afin que le modèle puisse prédire avec plus de précision les données inconnues.
  3. Évaluation du modèle : l'évaluation du modèle fait référence à l'évaluation de la précision du modèle. L'évaluation du modèle permet de trouver l'écart du modèle et de corriger le modèle de manière itérative.
  4. Version du modèle : la version du modèle fait référence à la fourniture du modèle formé aux utilisateurs finaux ou à d'autres services concernés.
  5. Surveillance du modèle : la surveillance du modèle fait référence à la surveillance de l'état d'exécution et de l'effet du modèle. La surveillance des modèles permet de découvrir les erreurs, les failles, les échecs et autres problèmes du modèle.

Je suppose que tu aimes

Origine blog.csdn.net/universsky2015/article/details/132014301
conseillé
Classement