Une brève introduction à la base de données GaussDB et à la gestion des données

Table des matières

Introduction

2. Système de règles de qualité des données (normes de mesure)

1. Pourquoi la gestion des données est nécessaire

2. Système de règles de qualité des données

3. Comment implémenter la gestion des données dans la base de données GaussDB

1. Conception de la qualité des données

2. Technologie de protection des données

3. Stockage des données

4. Modèle de cryptage des données

5. Sauvegarde des données

4. Résumé

Introduction

La gestion des bases de données et des données entretient une relation étroite et les deux forment ensemble un système de gestion de bases de données complet et évolutif. Une base de données est un système utilisé pour stocker des données, fournissant un environnement de stockage sûr, fiable, évolutif et gérable pour les données.

Avec le développement rapide des technologies de l’information, les données sont devenues l’un des principaux actifs des entreprises. À l’ère des données, la gestion des données est devenue l’un des facteurs clés permettant aux entreprises de rechercher l’excellence. En tant que système de gestion de base de données relationnelle offrant de hautes performances, une haute disponibilité et une haute fiabilité, la base de données GaussDB offre un support solide pour la gestion des données.

2. Système de règles de qualité des données (normes de mesure)

L’objectif le plus direct de la gestion des données est d’améliorer la qualité des données, et le but ultime est la valeur des données. Le principal objectif est de permettre aux organisations de tirer de la valeur de leurs actifs de données.

Avec l'enrichissement continu des types et des sources de données et la croissance rapide du volume de données, la probabilité que les entreprises soient confrontées à des problèmes de qualité des données a considérablement augmenté. La qualité des données est un problème complexe qui est souvent le résultat d'une combinaison de facteurs. Pour résoudre les problèmes de qualité des données, des efforts doivent être déployés sur plusieurs aspects tels que les mécanismes, les systèmes, les processus, les outils et la gestion.

La qualité des données couvre également un large éventail, s'étendant tout au long du cycle de vie de l'entreprise, de « génération de données -> accès aux données -> stockage des données -> traitement des données -> sortie des données -> affichage des données », chaque étape nécessite une gestion de la qualité.

À chaque étape de la construction du système de base de données, les tests de qualité et la normalisation des données doivent être effectués conformément aux normes, et la gestion doit être effectuée en temps opportun pour réduire le travail de gouvernance post-événement.

1. Pourquoi la gestion des données est nécessaire

Prenons l'exemple suivant : de nombreux spécialistes des données qui débutent commencent immédiatement à effectuer diverses statistiques et analyses sur les données après avoir obtenu les données, dans le but de découvrir immédiatement la valeur des données cachée derrière les données. Cependant, après avoir travaillé pendant un certain temps, j'ai découvert que je ne pouvais pas extraire immédiatement beaucoup d'informations précieuses. Par exemple, lorsqu'il s'agit de données, les scénarios suivants peuvent se produire :

Scénario 1 : Les statistiques des achats des utilisateurs au cours des 7 derniers jours ont été collectées à partir de la base de données et ont révélé que de nombreuses données comportaient des enregistrements en double et que certaines unités statistiques de données étaient même incohérentes.

Scénario 2 : Vérifiez le rapport et constatez que le volume des transactions d'un certain jour a chuté. Après enquête, il s'avère que les données de ce jour sont manquantes.

Scénario 3 : Un agent de première ligne mène des activités de télémarketing, appelle un client, voit les informations sensibles du client et reçoit une plainte de ce dernier.

Scénario 4 : par exemple, la sauvegarde des données n'est pas effectuée, les données sont perdues lorsqu'elles sont utilisées à mauvais escient ou que le système de l'entreprise est en panne, etc.

Un facteur important à l’origine de ces situations est la négligence de la gestion des données, l’incapacité à formuler des normes de mesure raisonnables et l’incapacité à procéder à l’audit et à la gestion de la sécurité des données. Cela a causé le problème de la non-découverte des données. Par conséquent, il est très nécessaire et important d’établir un système de règles scientifiques et objectives sur la qualité des données.

2. Système de règles de qualité des données

  • Intégrité : fait référence au fait qu'il n'y a aucun défaut ou omission dans le processus de création et de transmission des données, comprenant quatre aspects : entités complètes, attributs complets, enregistrements complets et valeurs de champs complètes. L'intégrité est l'aspect le plus fondamental de la qualité des données. Par exemple, les numéros d'identification des employés ne peuvent pas être vides.
  • Unicité : désigne l'identifiant d'une même donnée avec un déplacement. Reflétée dans un ensemble de données, une entité n'apparaît qu'une seule fois, et chaque entité unique a une valeur clé et la valeur clé pointe uniquement vers cette entité. Par exemple, un employé a un et un seul numéro d'emploi valide.
  • Validité : Cela signifie que la valeur, le format et la présentation des données répondent aux exigences de définition des données et de définition commerciale. Par exemple, la nationalité de l'employé doit être une valeur autorisée définie dans les données de base du pays.
  • Cohérence : fait référence à l'enregistrement et à la transmission de données et d'informations selon la même norme de données, ce qui se reflète principalement dans la standardisation des enregistrements de données et la logique des données. Par exemple, les noms des employés dans différents systèmes correspondant au même numéro de travail doivent être cohérents.
  • Précision : fait référence à l'enregistrement véridique et précis des données originales sans fausses informations sur l'ensemble de données. Les données doivent refléter avec précision les entités du « monde réel » qu’elles modélisent. Par exemple, les informations d'identité du salarié doivent être cohérentes avec les informations figurant sur la pièce d'identité.
  • Actualité : fait référence à l'enregistrement et à la transmission des données pertinentes en temps opportun pour répondre aux exigences de temps de l'entreprise pour l'acquisition d'informations. La livraison des données doit être effectuée en temps opportun, l'extraction doit être effectuée en temps opportun et la présentation doit être effectuée en temps opportun. Un délai de livraison des données trop long peut faire perdre aux conclusions de l'analyse leur signification de référence.

3. Comment implémenter la gestion des données dans la base de données GaussDB

Dans la base de données GaussDB, les données peuvent être gérées sous les aspects suivants (y compris, mais sans s'y limiter).

1. Conception de la qualité des données

La qualité des données est définie et mesurée sous trois aspects : la syntaxe, la sémantique et la pragmatique. L'ensemble du processus de génération, de traitement et d'utilisation des données doit être conforme à ses normes et spécifications. Comme indiqué ci-dessous:

2. Technologie de protection des données

GaussDB utilise une variété de méthodes et de fonctionnalités de protection des données pour garantir la sécurité et la fiabilité des données stockées dans GaussDB.

  • Cryptage de la transmission (HTTPS) : prend en charge deux protocoles de transmission, HTTP et HTTPS. Pour garantir la sécurité de la transmission des données, il est recommandé d'utiliser le protocole HTTPS plus sécurisé.
  • Protection des opérations sensibles : la console prend en charge la protection des opérations sensibles. Après avoir été activée, lors de l'exécution d'opérations sensibles telles que la suppression d'instances, le système effectuera une authentification d'identité pour garantir davantage la sécurité de la configuration et des données de GaussDB.
  • Cryptage des données SSL : Vous pouvez utiliser SSL pour crypter la connexion entre la base de données GaussDB et le client. SSL assure une communication sécurisée entre le client et le serveur en s'authentifiant mutuellement, en utilisant des signatures numériques pour garantir l'intégrité et en utilisant le cryptage pour garantir la confidentialité.

3. Stockage des données

GaussDB prend en charge le modèle de stockage de données ligne-colonne. Lors de la conception de la base de données, certains éléments clés de la conception de la table affecteront sérieusement les performances ultérieures des requêtes de l'ensemble de la base de données. La conception des tables a également un impact sur le stockage des données : une bonne conception des tables peut réduire les opérations d'E/S et minimiser l'utilisation de la mémoire, améliorant ainsi les performances des requêtes.

La sélection du modèle de stockage de table est la première étape de la définition de la table. Les attributs métier du client sont le facteur décisif dans le modèle de stockage du tableau. Sélectionnez le modèle de stockage adapté à l'activité actuelle selon le tableau suivant.

4. Modèle de cryptage des données

La base de données entièrement confidentielle utilise un modèle de cryptage à plusieurs niveaux. Les fonctions des clés dans différents scénarios de cryptage sont les suivantes :

  • Données : La base de données dense crypte les données appartenant aux colonnes cryptées dans l'instruction SQL et déchiffre les résultats de requête appartenant aux colonnes cryptées renvoyées par le serveur de base de données.
  • Clés de colonne : les données sont chiffrées par des clés de colonne, elles-mêmes chiffrées par des clés principales. Le texte chiffré de la clé de colonne est stocké sur le serveur de base de données.
  • Clé principale : générée et stockée par la gestion des clés externe. Le pilote de base de données accédera automatiquement à la gestion des clés externes pour mettre en œuvre le cryptage et le déchiffrement des clés de colonne.

5. Sauvegarde des données

GaussDB prend en charge diverses méthodes de sauvegarde et de récupération de données, telles que la sauvegarde complète, la sauvegarde incrémentielle, la sauvegarde différentielle, etc. Ces méthodes de sauvegarde et de récupération peuvent garantir la cohérence et la fiabilité des données et éviter la perte et l’endommagement des données.

Stratégie de sauvegarde :

  • Sauvegarde complète : après la première sauvegarde complète, toutes les données seront sauvegardées dans les deuxième et troisième sauvegardes, que les données aient été modifiées ou non.
  • Sauvegarde incrémentielle : après la première sauvegarde complète, la deuxième sauvegarde sauvegardera uniquement les données modifiées et la troisième sauvegarde sauvegardera uniquement les données modifiées depuis la deuxième sauvegarde.
  • Sauvegarde différentielle : après la première sauvegarde complète, la deuxième sauvegarde sauvegardera uniquement les données modifiées et la troisième sauvegarde sauvegardera les données modifiées depuis la première sauvegarde complète.

GaussDB crée des sauvegardes automatiques de l'instance de base de données pendant la fenêtre de sauvegarde de l'instance de base de données. Le système enregistre les sauvegardes automatiques de vos instances de base de données en fonction de la période de conservation des sauvegardes que vous spécifiez. Une fois l'instance CN étendue ou fragmentée, le système effectuera une sauvegarde automatique. Les utilisateurs peuvent également créer une sauvegarde manuelle pour sauvegarder la base de données. Une sauvegarde manuelle est une sauvegarde complète de l'instance de base de données démarrée par l'utilisateur et sera enregistrée jusqu'à ce que l'utilisateur la supprime manuellement.

4. Résumé

La base de données GaussDB fournit un support puissant pour la gestion des données grâce à ses hautes performances, sa haute disponibilité et sa haute fiabilité. Les entreprises doivent exploiter pleinement les fonctions et avantages supplémentaires de la base de données GaussDB pour la gestion des données, renforcer les pratiques de gestion des données, améliorer continuellement la qualité et la sécurité des données et créer une plus grande valeur pour le développement des entreprises.

De plus, pour la gestion des données, la base de données est un outil de gestion de données essentiel et puissant. En plus de s'appuyer sur des bases de données, le travail de gestion des données doit également être intégré aux mécanismes de gestion, aux systèmes, aux processus, aux outils tiers de l'entreprise, etc. Par exemple, établir un système de gestion des données, formuler des normes de gestion des données, renforcer la formation des utilisateurs de données et effectuer des inspections régulières de la gestion de la qualité des données.

--Finition

OpenAI ouvre ChatGPT gratuitement à tous les utilisateurs. Des programmeurs vocaux ont falsifié les soldes ETC et détourné plus de 2,6 millions de yuans par an. Spring Boot 3.2.0 a été officiellement publié. Les employés de Google ont critiqué le grand patron après avoir quitté l'entreprise. Il a été profondément impliqué dans le projet Flutter et formulé des normes liées au HTML. Microsoft Copilot Web AI sera officiellement lancé le 1er décembre, prenant en charge le framework Web open source Terminal Chat Rust de Microsoft chinois Lancement de Rocket v0.5 : prend en charge asynchrone, SSE, WebSockets, etc. Redis implémente le framework Telegram Bot en utilisant du code pur en langage C. Si vous êtes un responsable de projet open source, rencontrez Jusqu'où pouvez-vous supporter ce type de réponse ? PHP 8.3 GA
{{o.name}}
{{m.nom}}

Guess you like

Origin my.oschina.net/gaussdb/blog/10278359