1. Einleitung
Apache Hudi ist eine neue Generation von Stream-Computing-basierten Datenspeicherplattformen im Bereich Big Data, auch bekannt als Data Lake Platform (Data Lake Platform), die die Kernfunktionen traditioneller Datenbanken und Data Warehouses integriert, um eine vielfältige Datenintegration zu ermöglichen , Datenverarbeitungs- und Datenspeicherungsplattformfunktionen. Zu den von Hudi bereitgestellten Kernfunktionen gehören Datentabellenverwaltungsdienst, Transaktionsverwaltungsdienst, effizienter Hinzufügungs-, Lösch-, Änderungs- und Abfragevorgangsdienst, erweiterter Indexsystemdienst, Streaming-Datenerfassungsdienst, Datencluster- und Komprimierungsoptimierungsdienst, Hochleistungs-Parallelitätskontrolldienst , Hudi Das Datenorganisationsspeicherformat im Data Lake ist ein Open-Source-Dateiformat.
Apache Hudi kann groß angelegte Stream-Verarbeitungs-Workloads unterstützen und stellt gleichzeitig auch Daten-Pipelines bereit, die eine effiziente, inkrementelle und Batch-Verarbeitung erstellen können.
Apache Hudi kann problemlos auf jeder Cloud-Speicherplattform bereitgestellt werden und kann in Kombination mit den derzeit beliebten Datenanalyse- und Abfrage-Engines Apache Spark, Flink, Presto, Trino und Hive Datenanalysefunktionen mit überlegener Leistung bereitstellen.
2 Architekturbeschreibung
Die allgemeine Anwendungsarchitektur der Apache Hudi Data Lake-Plattform sieht wie folgt aus:
Datenquellen Datenquelle, die Dateneingabe bereitstellt |
Apps & Microservices Datenquellen von Anwendungs- und Microservice-Typen, die Eingaben für Ereignisse bereitstellen |
Datenbanken Datenquelle vom Typ SQL-Datenbank oder NoSQL-Datenbank, die Eingaben für Ereignisse bereitstellt |
Ereignisströme Nachrichten- oder Ereignis-Middleware, die die Eingabe von Ereignissen aus anderen Datenquellen akzeptiert und sie in Ereignisströmen aggregiert |
Hudi Data Lake Die Hudi Data Lake-Plattform nutzt Streaming-Computing-Technologie, um groß angelegte, strukturierte oder unstrukturierte Datenverarbeitungs- und Speicherdienste bereitzustellen |
DeltaStreamer/CDC Stream-Computing-Ereignisprozessor/Erfassen von Datenänderungen, die zum Verarbeiten von Ereignisströmen und zum Verarbeiten von Ereignisänderungen verwendet werden |
Zeilentabellen Eine Datentabelle für die Zeilenspeicherung, die zum Speichern von Ereignissen verwendet wird, die im vorherigen Schritt verarbeitet wurden |
Inkrementelle ETL Die standardmäßigen Verarbeitungsschritte des Data Warehouse, die inkrementelle, Streaming- und Pipeline-Computing-Ereignisprozessoren verwenden, konvergieren in der Eingabe des nächsten Ereignisstroms |
Abgeleitete Tabellen Speichern Sie das Eingabestromereignis des vorherigen Schritts oder die endgültigen Daten, die analysiert werden sollen |
Seespeicher Datenorganisationsspeicherung der Hudi-Datentabelle, Unterstützung von HDFS oder Objektspeicherung in einer öffentlichen Cloud-Umgebung |
Abfragen Abfrage-Engine, die Hudi Data Lake Abfrage- und Abrufdienste bereitstellt |
Rohrleitungen Analyse-Engine, die Hudi Data Lake-Abfrage- und Analysedienste bereitstellt |
(fortgesetzt werden)