Communes grandes idées de conception de l'architecture de la plate-forme de données

Ces dernières années, ainsi que l'informatique technologie de l'apprentissage et de grandes données, sens machine du développement continu d'algorithmes, de plus en plus d'entreprises ont pris conscience de la valeur des données existantes, elle-même les données en tant que gestion des actifs de valeur, l'utilisation de grands volumes de données et l'apprentissage de la machine capacité de creuser, d'identifier, à l'aide des actifs de données. Si l'absence de données efficaces conception d'ensemble architectural ou une partie du déficit, conduira la couche d'affaires est difficile de profiter directement des données Big Data Big, big data et les entreprises ont un énorme fossé apparu plomb gouffre aux affaires se produit lors de l'utilisation de grandes quantités de données données agnostique, la demande est difficile à réaliser, difficile à partager des données et d'autres questions, cet article décrit quelques-unes de l'approche de la conception de la plate-forme de données pour aider les entreprises à réduire la difficulté et les points de douleur dans le développement de données.

Cet article comprend les sections suivantes:

  1. La première partie de cet article pour introduire un des composants d'infrastructure de grandes données et connaissances connexes.

  2. La deuxième partie décrit l'architecture de l'architecture kappa et lambda.

  3. La troisième section décrit l'architecture générale de grandes données sous la kappa et lambda motifs architecturaux

  4. Partie IV décrit le système de données architecture de données nues fin sous les difficultés et les points de douleur.

  5. Section V excellente conception globale de grande architecture de données

  6. De la cinquième partie est l'introduction de données à travers une variété de plates-formes et composants à ces grandes quantités de données composants se combinent pour créer une plate-forme de données efficace et conviviale pour améliorer l'efficacité des systèmes d'affaires, le développement des affaires, donc qui n'a pas peur des composants de développement de données complexes, sans prêter attention à la mise en œuvre sous-jacente, que vous devez utiliser SQL pour achever le développement d'un guichet unique, les données complètes refusion, de sorte que les données ne sont plus un grand ingénieurs de données ont des compétences.

Tout d'abord, la grande pile de technologie de données

processus Big Data implique un grand nombre de modules, chaque module est plus complexe, la figure ci-dessous répertorie les modules et composants ainsi que leurs propriétés fonctionnelles, il sera suivi d'introduire des sujets liés au domaine des détails du module de connaissances, telles que la collecte de données, la transmission de données, l'informatique en temps réel , hors ligne calculée, un grand stockage de données et d'autres modules associés.

 

 

Deux, lambda et l'architecture de l'architecture kappa

Maintenant , essentiellement toute la grande architecture de données est basée sur l' architecture lambda et kappa, entreprises différentes dans ces deux modèles architecturaux conçus pour répondre à l'architecture de données de l'entreprise. l' architecture lambda permet aux développeurs de construire à grande échelle le système de traitement de données distribuées. Il a une bonne flexibilité et l' évolutivité, mais a également une bonne tolérance aux pannes pour défaillance matérielle et l' erreur humaine, par rapport à l' architecture lambda se trouve à de nombreux articles connexes sur Internet. Les adresses d'architecture kappa deux ensembles de systèmes de traitement des données existent architecture lambda, ce qui conduit à une variété de coût, qui est actuellement approuvé la direction d'écoulement de l'intégration de la recherche, de nombreuses entreprises ont commencé à utiliser cette architecture plus avancée. Vous voulez en savoir le système de grandes données, vous pouvez vous joindre à la grande technologie de données d' apprentissage boutonnée Junyang: 522 189 307

 

l'architecture lambda

 

l'architecture Kappa

 

En troisième lieu, la grande architecture de données à l'architecture l'architecture kappa et lambda

 

Actuellement, les grandes entreprises utilisent essentiellement le modèle d'architecture architecture kappa ou lambda, ces deux modes de grandes quantités de données architecture globale pourrait ressembler à ce qui suit dans les premiers stades de développement:

 

Quatrièmement, les données de point final douleur

 

Bien que l'architecture ci-dessus regardera grande variété de composants de données reliés entre eux pour mettre en œuvre une gestion intégrée, mais les gens de développement des données de contact se sentira plus intense, les données commerciales de l'architecture nu tel développement nécessite beaucoup d'attention à l'utilisation de l'instrument sous-jacent, le développement des données réelles Il y a beaucoup de points de douleur et les difficultés, en particulier dans certains des aspects suivants.

 

  1. L'absence d'un IDE de développement de données pour gérer l'ensemble du développement de la liaison de données, processus à long terme ne peuvent pas le gérer.

  2. Aucun système de modélisation de données standard, ce qui dans différents ingénieur de données pour comprendre les différents indicateurs calculés de mauvais calibre.

  3. Les grandes exigences en matière de développement des composants de données haute, entreprise générale d'utiliser Hbase directe, ES et d'autres composants de la technologie produira une variété de problèmes.

  4. En fait, chaque entreprise grande équipe de données sera très complexe, impliquant de nombreux domaines, un problème difficile à trouver difficile de trouver la personne correspondante en charge.

  5. Difficile de briser les silos de données, le partage des données entre les départements inter-équipes est difficile, ils ne savent pas ce que les autres données pour.

  6. La nécessité de maintenir deux ensembles de calculs du modèle de calcul par lots et calcul du débit, il est difficile de commencer à développer, le besoin de fournir un flux uniforme batch SQL.

  7. Le manque de planification du système de métadonnées au niveau des entreprises, les mêmes données en temps réel et la réutilisation calcul difficile hors ligne, le cardage chacun une variété de tâches de développement devrait être.

Fondamentalement, la plupart des entreprises sur la plate-forme de gestion des données et fournit tous les problèmes et les points de douleur au-dessus sur la capacité ouverte. Dans une architecture de données complexes, des données appropriées pour les parties, tous les aspects d'une fonction est pas claire ou hostile, il sera plus compliqué de changer un lien complexe. Vous voulez résoudre ces points de douleur, vous devez soigneusement poli tous les aspects, les composants technologiques de haut en toute transparence, de sorte que des affaires comme écrire SQL pour interroger la base de données est aussi simple que l'utilisation des données de bout en bout.

Cinq excellente grande conception de l'architecture de données globale

Offre une variété de plates-formes et des outils pour aider la plate-forme de données: la collecte de données de sources de données de la plate-forme, une plate-forme clé pour la synchronisation des données, la qualité des données et la plate-forme de modélisation, un système de métadonnées, une plate-forme d'accès aux données unifiée, en temps réel et la plate-forme informatique hors ligne, la planification des ressources plate-forme, un guichet unique IDE de développement.

 

Sixièmement, les métadonnées - la pierre angulaire du grand système de données

Les métadonnées sont des sources de données ouvertes, l'entrepôt de données, les applications de données, enregistrées des données de liaison complète de la production à la consommation. Métadonnées contient des tableaux statiques, des colonnes, des informations sur les partitions (c.-à-MetaStore). tableau dynamique de la relation de mappage de dépendance de tâche; modèle définit l'entrepôt de données, le cycle de vie des données et des informations de planification ETL, entrée et sortie de métadonnées est la gestion des données, le contenu de base de données, des applications de données. Par exemple, construit en utilisant les métadonnées des tâches, des tables, des colonnes, des données cartographiques entre l'utilisateur, les dépendances de tâches de DAG, tâche ordonnancement séquence d'exécution, les tâches de construction illustration, la tâche de gestion de la qualité, BU gestion du personnel ou de l'actif, du calcul de la consommation des ressources Vue d'ensemble et ainsi de suite.

Peut-on considérer l'ensemble des flux importants de données comptent sur la gestion des métadonnées, il n'y a pas ensemble complet de conception des métadonnées, il sera difficile de suivre les données ci-dessus, l'autorité est difficile à contrôler, difficile de gérer les ressources, difficiles à partager des données et ainsi de suite.

De nombreuses entreprises comptent ruche pour gérer les métadonnées, mais pense personnellement que, dans un certain stade de développement encore besoin de construire leur propre plate-forme pour correspondre les métadonnées liées à l'architecture.

Sept, le calcul de flux d'intégration de lots

Si le maintien de deux moteurs de calcul tels que Spark hors ligne de calcul et en temps réel de calcul Flink, l'utilisateur provoque une grande détresse, à la fois besoin d'apprendre le calcul des flux exige également la connaissance du savoir calcul par lots. Si en temps réel avec Spark ou Hadoop, vous pouvez développer une description linguistique DSL personnalisée de la syntaxe pour correspondre à différents moteurs de calcul, les utilisateurs ne doivent se concentrer sur les détails de mise en œuvre supérieurs sous-jacents, ne doivent maîtriser une langue hors-ligne DSL Flink, vous pouvez compléter Spark et l'accès et Flink comme moteur Hadoop de calcul.

Huit, en temps réel et hors ligne plate-forme ETL

ETL-à-dire l'extrait de transformation de la charge, pour décrire les données de la borne de source par l'intermédiaire d'extraction (extrait), la conversion (transformation), la charge (charge) pour le processus de destination. Le terme le plus couramment utilisé dans l'entrepôt de données ETL, mais l'objet ne se limite pas à l'entrepôt de données. Dans la plate-forme générale ETL dans le nettoyage des données, la conversion de format de données, l'achèvement des données, la gestion de la qualité des données, et il a un rôle très important. En tant que nettoyage de données de couche intermédiaire important, ETL général d'avoir au moins les différentes fonctions suivantes:

  1. Support de multiples sources de données, comme un système de messagerie, système de fichiers, etc.

  2. Supporte plusieurs opérateurs, le filtrage, la segmentation, la conversion, des fonctions de requête de source de données de sortie opérateur complément congruents

  3. Soutenir le changement logique dynamique, tel que mentionné ci-dessus l'opérateur de présenter un service non-stop peut être fait par l'affichage change de façon dynamique pot.

 

 

Neuf, plate-forme de recherche unifiée intelligente

 

La plupart des requêtes de données sont motivées par la demande, une demande de développer une ou plusieurs interfaces, interfaces document écrit, ouvert aux appels de partis d'affaires, ce modèle il y a beaucoup de problèmes dans le grand système de données:

  1. Cette architecture est simple, mais l'interface est très granularité grossière, la flexibilité n'est pas élevé, une mauvaise évolutivité, le taux de réutilisation. Avec l'augmentation des besoins des entreprises, une augmentation substantielle du nombre d'interfaces, les coûts de maintenance élevés.

  2. Pendant ce temps, l'efficacité du développement est peu élevé, ce qui pour les grandes quantités de données que le système sera évidemment causer beaucoup de duplication de développement, il est difficile de réaliser un multiplexage logique et des données, ce qui réduit considérablement côté commercial de l'expérience applicable.

  3. S'il n'y a pas la plate-forme de recherche unifiée exposée directement à Hbase et d'autres services de la bibliothèque, le suivi des opérations de gestion des droits numériques et la maintenance sera plus difficile d'accès composante importante de données est tout aussi pénible pour le côté commercial applicable, la moindre erreur se posera divers problèmes .

     

Les requêtes pour résoudre le gros problème des points de douleur de requête de données à travers un ensemble d'applications intelligentes

 

Dix, le nombre de bacs standard du système de modélisation

Comme l'entreprise a augmenté les données de la complexité et l'échelle, les appels de données confusion et des copies de déchets différents des ressources, la duplication de la définition des données d'indicateurs a apporté l'ambiguïté, l'utilisation des données de plus en plus le seuil. Je suis témoin de l'activité réelle Buried et utilisation de plusieurs entrepôts, par exemple, un nom commercial avec des champs de formulaire sont good_id, certains spu_id appelé, il y a beaucoup d'autres noms, qui veulent utiliser ces données provoque une grande détresse. Donc, il n'y a pas ensemble complet de grands systèmes de modélisation des données, la gouvernance des données apportera de grandes difficultés, notamment dans les domaines suivants:

 

  1. les normes de données sont incompatibles, même le même nom, mais la définition du calibre ont été contradictoires. Par exemple, seulement uv ces indicateurs, il y a une douzaine de définitions. Le problème est causé par: tous les uv, j'utilise quoi? uv sont, pourquoi les données ne sont pas les mêmes?

  2. les frais de recherche et de développement énormes, des besoins de chaque ingénieur de connaître tous les détails du processus de développement du début à la fin, et pour la même « fosse » Tout le monde reculèrent à nouveau, entraînant une perte de temps et d'énergie pour les frais de personnel de recherche et de développement. Ceci est aussi le but de l'auteur les problèmes rencontrés, les développeurs veulent extraire les données réelles difficiles.

  3. Il n'y a pas de gestion de spécification standard uniforme, entraînant une perte de ressources telles que le double comptage. Le niveau de la table de données, la taille des particules ne sont pas claires, de sorte que le stockage en double est également grave.

 

Par conséquent, le développement de plusieurs grandes table design d'entrepôt de données doit respecter les principes de la conception, la plate-forme de développement de la plate-forme de données conçue pour retenir déraisonnable, comme corps Alibaba OneData. En général, les développeurs doivent passer par les données conformément aux directives suivantes:

 

Intéressés peuvent se référer au système de conception Alibaba OneData.

XI, une plate-forme d'intégration clé

Simple peut être différents types de données à une clé de la plate-forme de collecte de données, la transmission de données par Internet à l'Internet de l'ETL de données. ETL à travers la plate-forme et de métadonnées ouverte, normalisée définition de schéma, puis les données sont converties, scission des flux en temps réel et la plate-forme informatique hors ligne, toute modification ultérieure des données hors ligne et le traitement en temps réel, seuls les privilèges de table de métadonnées d'application aux tâches de développement pour mener à bien le calcul. soutien à l'acquisition de données multiples types de sources de données, la binlog par exemple, la collecte des journaux, l'extrémité avant Buried, file d'attente de messages Kafka

Douze, le développement de données efficace de bout en IDE-à-outil

outils de développement de données de guichet unique solution efficace, le calcul en temps réel peut se faire à travers les tâches IDE et le développement informatique hors ligne, seront tous passer à travers ces plateformes fournir des solutions à guichet unique. IDE de développement des données permet l'intégration de données, le développement de données, gestion des données, des services de qualité des données et des données telles que une gamme complète de produits et services, le développement d'un guichet unique et une interface de gestion, les données NetBeans transmission de données complètes, les opérations de conversion et d'intégration. Le stockage des données de différentes données entrantes, et la transformation et le développement, et envoie enfin les données traitées à l'autre système de synchronisation de données. En grande IDE de développement efficace des données, essentiellement des ingénieurs font de grandes données peuvent être masquées différents points de la douleur, la possibilité de combiner les mentionnées ci-dessus plusieurs plates-formes, les développeurs peuvent faire de grandes données aussi facile à écrire SQL.

À propos des outils de développement peuvent faire référence à des données DataWorks Ali nuage.

Difficultés aussi besoin de mettre fin d'adresse pour mettre fin à plusieurs autres capacités auxiliaires, on ne décrit plus, les étudiants intéressés peuvent étudier leurs propres moyens.

XIII. Autres

Système complet de données R & D comprend également un centre de surveillance d'alarme, les ressources du centre d'expédition, l'isolation des ressources informatiques, des tests de la qualité des données, données système de guichet unique de traitement, il n'y aura plus continuer à en discuter.

Il a publié 191 articles originaux · louange gagné 3 · vues 30000 +

Je suppose que tu aimes

Origine blog.csdn.net/mnbvxiaoxin/article/details/104988460
conseillé
Classement