Big Data|Grundlegende Konzepte von Data Lake [Studiennotizen]

Lerndokument: [Frontier] Detaillierte Erklärung des Data Lake in einem Artikel – Wisdom Yuyi (nicht original)


Data-Lake-Definition
  • Über ausreichend Datenspeicherkapazität verfügen
  • Kann jede Art von Daten speichern, einschließlich strukturierter, strukturierter und unstrukturierter Daten
  • Bei den Daten handelt es sich ausschließlich um Rohdaten
  • Verfügen Sie über Datenverwaltungsfunktionen
  • Sie verfügen über vielfältige analytische Fähigkeiten
  • Verfügen über umfassende Funktionen zur Verwaltung des Datenlebenszyklus (Speichern der Zwischenergebnisse verschiedener Verarbeitungsarten, Aufzeichnen des Datenanalyse- und Verarbeitungsprozesses)
  • Verfügen Sie über vollständige Datenerfassungs- und Veröffentlichungsfunktionen (unterstützen Sie verschiedene Datenquellen und unterstützen Sie verschiedene Zugriffsanforderungen).
  • Skalierbare, umfangreiche Speicher- und Verarbeitungsfunktionen
Grundlegende Eigenschaften des Data Lake
  • Datentreue: Eine Kopie der Originaldaten muss im Data Lake gespeichert werden
  • Daten-„Flexibilität“: Betonen Sie das „lesebasierte Schema“, bewahren Sie die Flexibilität und verschieben Sie das Design
  • Daten sind „verwaltbar“: Datenquellen, Datenverbindungen, Datenformate, Datenschema und Datenberechtigungsverwaltungsfunktionen
  • „Rückverfolgbarkeit“ der Daten: Die Datenzugriffs-, Speicher-, Verarbeitungs- und Verbrauchsprozesse können nachvollzogen werden
  • Rich-Computing-Engine: sollte mindestens Stapelverarbeitung, Streaming-Computing, interaktives Computing, maschinelles Lernen usw. unterstützen.
  • Multimodale Speicher-Engine: Eine multimodale Speicher-Engine, die die Anforderungen unterschiedlicher Antwortzeiten, Parallelität, Zugriffshäufigkeit, Kosten und anderer Faktoren erfüllen kann
Grundlegende Architektur des Data Lake
  • Die erste Stufe: Offline-Datenverarbeitungsinfrastruktur, dargestellt durch Hadoop (Computer-Engines wie Tez, Spark, Presto, DAG-Modell, HBase für KV-Operationen, Hive für SQL-Operationen)
  • Die zweite Stufe: Lambda-Architektur, Stream-Batch-Integration (Streaming-Computing wie Storm, Spark Streaming, Flink usw.)
  • Die dritte Stufe: Kappa-Architektur
Datenverwaltungskomponenten von Data Lake

Datenzugriff, Datenmigration, Datenverwaltung, Qualitätsmanagement, Asset-Katalog, Zugriffskontrolle, Aufgabenverwaltung, Aufgabenorchestrierung, Metadatenverwaltung

Data-Lake-Lösungen verschiedener Anbieter
Hersteller Datenzugriff Datenspeicher Rechenmaschine
AWS Datenquellen in der Cloud S3 SQL, Spark-Stream-Verarbeitung (GLUE)
Huawei Cloud-Datenquellen, cloudübergreifender Datenzugriff, Streaming-Daten OBS SQL, Spark, Flink
Ali Cloud-Datenquellen und selbst erstellte Datenbanken OSS SQL、Spark
Azurblau Datenquellen in der Cloud Azure Object Storage U-SQL, Haddop, Spark
Grundlegender Prozess des Aufbaus eines Data Warehouse/Data Middle-Plattform
  1. Datenzuordnung: Klärung von Datenquellen, Datentypen, Datenformen, Datenmustern, Gesamtdatenvolumen und Dateninkrementen usw.
  2. Modellabstraktion: Sortieren und Klassifizieren verschiedener Datentypen, um Metadaten für die Datenverwaltung zu bilden
  3. Datenzugriff
  4. Integrierte Governance: Daten verarbeiten, um verschiedene Zwischendaten/Ergebnisdaten zu bilden
  5. Business Unterstützung
Die zukünftige Richtung von Data Lakes
  • Cloud-native Architektur: Trennung von Speicher und Computer, Unterstützung multimodaler Computer-Engines und Bereitstellung serverloser Dienste
  • Datenverwaltungsfunktionen: Datenquellenverwaltung, Datenkategorieverwaltung, Orchestrierung des Verarbeitungsflusses, Aufgabenplanung, Datenrückverfolgbarkeit, Datenverwaltung, Qualitätsmanagement, Autoritätsverwaltung usw.
  • Datenbankerfahrung, Freigabe der Funktionen des Data Lake in Form von SQL
  • Vollständige, visuelle und skalierbare integrierte Entwicklungsumgebung
  • Tiefe Integration und Integration mit dem Geschäft

Guess you like

Origin blog.csdn.net/Changxing_J/article/details/133106574