Apache Hudi-Technologie und -Architektur-1

1. Einleitung

Apache Hudi ist eine neue Generation von Stream-Computing-basierten Datenspeicherplattformen im Bereich Big Data, auch bekannt als Data Lake Platform (Data Lake Platform), die die Kernfunktionen traditioneller Datenbanken und Data Warehouses integriert, um eine vielfältige Datenintegration zu ermöglichen , Datenverarbeitungs- und Datenspeicherungsplattformfunktionen. Zu den von Hudi bereitgestellten Kernfunktionen gehören Datentabellenverwaltungsdienst, Transaktionsverwaltungsdienst, effizienter Hinzufügungs-, Lösch-, Änderungs- und Abfragevorgangsdienst, erweiterter Indexsystemdienst, Streaming-Datenerfassungsdienst, Datencluster- und Komprimierungsoptimierungsdienst, Hochleistungs-Parallelitätskontrolldienst , Hudi Das Datenorganisationsspeicherformat im Data Lake ist ein Open-Source-Dateiformat.

Apache Hudi kann groß angelegte Stream-Verarbeitungs-Workloads unterstützen und stellt gleichzeitig auch Daten-Pipelines bereit, die eine effiziente, inkrementelle und Batch-Verarbeitung erstellen können.

Apache Hudi kann problemlos auf jeder Cloud-Speicherplattform bereitgestellt werden und kann in Kombination mit den derzeit beliebten Datenanalyse- und Abfrage-Engines Apache Spark, Flink, Presto, Trino und Hive Datenanalysefunktionen mit überlegener Leistung bereitstellen.

2 Architekturbeschreibung

Die allgemeine Anwendungsarchitektur der Apache Hudi Data Lake-Plattform sieht wie folgt aus:

 Datenquellen

Datenquelle, die Dateneingabe bereitstellt

 Apps & Microservices

Datenquellen von Anwendungs- und Microservice-Typen, die Eingaben für Ereignisse bereitstellen

 Datenbanken

Datenquelle vom Typ SQL-Datenbank oder NoSQL-Datenbank, die Eingaben für Ereignisse bereitstellt

 Ereignisströme

Nachrichten- oder Ereignis-Middleware, die die Eingabe von Ereignissen aus anderen Datenquellen akzeptiert und sie in Ereignisströmen aggregiert

 Hudi Data Lake

Die Hudi Data Lake-Plattform nutzt Streaming-Computing-Technologie, um groß angelegte, strukturierte oder unstrukturierte Datenverarbeitungs- und Speicherdienste bereitzustellen

 DeltaStreamer/CDC

Stream-Computing-Ereignisprozessor/Erfassen von Datenänderungen, die zum Verarbeiten von Ereignisströmen und zum Verarbeiten von Ereignisänderungen verwendet werden

 Zeilentabellen

Eine Datentabelle für die Zeilenspeicherung, die zum Speichern von Ereignissen verwendet wird, die im vorherigen Schritt verarbeitet wurden

 Inkrementelle ETL

Die standardmäßigen Verarbeitungsschritte des Data Warehouse, die inkrementelle, Streaming- und Pipeline-Computing-Ereignisprozessoren verwenden, konvergieren in der Eingabe des nächsten Ereignisstroms

 Abgeleitete Tabellen

Speichern Sie das Eingabestromereignis des vorherigen Schritts oder die endgültigen Daten, die analysiert werden sollen

 Seespeicher

Datenorganisationsspeicherung der Hudi-Datentabelle, Unterstützung von HDFS oder Objektspeicherung in einer öffentlichen Cloud-Umgebung

 Abfragen

Abfrage-Engine, die Hudi Data Lake Abfrage- und Abrufdienste bereitstellt

 Rohrleitungen

Analyse-Engine, die Hudi Data Lake-Abfrage- und Analysedienste bereitstellt

(fortgesetzt werden)

Supongo que te gusta

Origin blog.csdn.net/uesowys/article/details/126589829
Recomendado
Clasificación