Lerndokument: [Frontier] Detaillierte Erklärung des Data Lake in einem Artikel – Wisdom Yuyi (nicht original)
Data-Lake-Definition
- Über ausreichend Datenspeicherkapazität verfügen
- Kann jede Art von Daten speichern, einschließlich strukturierter, strukturierter und unstrukturierter Daten
- Bei den Daten handelt es sich ausschließlich um Rohdaten
- Verfügen Sie über Datenverwaltungsfunktionen
- Sie verfügen über vielfältige analytische Fähigkeiten
- Verfügen über umfassende Funktionen zur Verwaltung des Datenlebenszyklus (Speichern der Zwischenergebnisse verschiedener Verarbeitungsarten, Aufzeichnen des Datenanalyse- und Verarbeitungsprozesses)
- Verfügen Sie über vollständige Datenerfassungs- und Veröffentlichungsfunktionen (unterstützen Sie verschiedene Datenquellen und unterstützen Sie verschiedene Zugriffsanforderungen).
- Skalierbare, umfangreiche Speicher- und Verarbeitungsfunktionen
Grundlegende Eigenschaften des Data Lake
- Datentreue: Eine Kopie der Originaldaten muss im Data Lake gespeichert werden
- Daten-„Flexibilität“: Betonen Sie das „lesebasierte Schema“, bewahren Sie die Flexibilität und verschieben Sie das Design
- Daten sind „verwaltbar“: Datenquellen, Datenverbindungen, Datenformate, Datenschema und Datenberechtigungsverwaltungsfunktionen
- „Rückverfolgbarkeit“ der Daten: Die Datenzugriffs-, Speicher-, Verarbeitungs- und Verbrauchsprozesse können nachvollzogen werden
- Rich-Computing-Engine: sollte mindestens Stapelverarbeitung, Streaming-Computing, interaktives Computing, maschinelles Lernen usw. unterstützen.
- Multimodale Speicher-Engine: Eine multimodale Speicher-Engine, die die Anforderungen unterschiedlicher Antwortzeiten, Parallelität, Zugriffshäufigkeit, Kosten und anderer Faktoren erfüllen kann
Grundlegende Architektur des Data Lake
- Die erste Stufe: Offline-Datenverarbeitungsinfrastruktur, dargestellt durch Hadoop (Computer-Engines wie Tez, Spark, Presto, DAG-Modell, HBase für KV-Operationen, Hive für SQL-Operationen)
- Die zweite Stufe: Lambda-Architektur, Stream-Batch-Integration (Streaming-Computing wie Storm, Spark Streaming, Flink usw.)
- Die dritte Stufe: Kappa-Architektur
Datenverwaltungskomponenten von Data Lake
Datenzugriff, Datenmigration, Datenverwaltung, Qualitätsmanagement, Asset-Katalog, Zugriffskontrolle, Aufgabenverwaltung, Aufgabenorchestrierung, Metadatenverwaltung
Data-Lake-Lösungen verschiedener Anbieter
Hersteller | Datenzugriff | Datenspeicher | Rechenmaschine |
---|---|---|---|
AWS | Datenquellen in der Cloud | S3 | SQL, Spark-Stream-Verarbeitung (GLUE) |
Huawei | Cloud-Datenquellen, cloudübergreifender Datenzugriff, Streaming-Daten | OBS | SQL, Spark, Flink |
Ali | Cloud-Datenquellen und selbst erstellte Datenbanken | OSS | SQL、Spark |
Azurblau | Datenquellen in der Cloud | Azure Object Storage | U-SQL, Haddop, Spark |
Grundlegender Prozess des Aufbaus eines Data Warehouse/Data Middle-Plattform
- Datenzuordnung: Klärung von Datenquellen, Datentypen, Datenformen, Datenmustern, Gesamtdatenvolumen und Dateninkrementen usw.
- Modellabstraktion: Sortieren und Klassifizieren verschiedener Datentypen, um Metadaten für die Datenverwaltung zu bilden
- Datenzugriff
- Integrierte Governance: Daten verarbeiten, um verschiedene Zwischendaten/Ergebnisdaten zu bilden
- Business Unterstützung
Die zukünftige Richtung von Data Lakes
- Cloud-native Architektur: Trennung von Speicher und Computer, Unterstützung multimodaler Computer-Engines und Bereitstellung serverloser Dienste
- Datenverwaltungsfunktionen: Datenquellenverwaltung, Datenkategorieverwaltung, Orchestrierung des Verarbeitungsflusses, Aufgabenplanung, Datenrückverfolgbarkeit, Datenverwaltung, Qualitätsmanagement, Autoritätsverwaltung usw.
- Datenbankerfahrung, Freigabe der Funktionen des Data Lake in Form von SQL
- Vollständige, visuelle und skalierbare integrierte Entwicklungsumgebung
- Tiefe Integration und Integration mit dem Geschäft