Detaillierte Erläuterung der Big-Data-Speicherarchitektur: Data Warehouse, Data Mart, Data Lake, Data Grid, Lake Warehouse-Integration

Vorwort

Dieser Artikel gehört zur Rubrik „Theoretisches System von Big Data“. Diese Kolumne ist ein Original des Autors. Bitte geben Sie die Quelle für die Zitierung an. Bitte weisen Sie im Kommentarbereich auf Mängel und Fehler hin, vielen Dank!

Die Verzeichnisstruktur und Referenzen dieser Kolumne finden Sie im Big Data Theory System


Mindmapping

Fügen Sie hier eine Bildbeschreibung ein


Datenbank

Das Data Warehouse ist eine 面向主题(subjektorientierte), 集成(integrierte),
相对稳定(nichtflüchtige) 反映历史变化(zeitvariante) Datensammlung.

Das Hauptziel eines Data Warehouse besteht darin, konsistente, zuverlässige und leicht zugängliche Daten bereitzustellen,
um geschäftliche Entscheidungen und Analysen zu unterstützen.

Es kann Unternehmen helfen, ihr Geschäft, ihren Markt und ihre Kunden zu verstehen
und Entscheidungsunterstützung sowie prädiktive Analysefunktionen bereitzustellen.

Data Warehouses werden häufig in der Business Intelligence und Datenanalyse eingesetzt.

Weitere Informationen zu Data Warehouses finden Sie in meinem Blog – Was ist ein Data Warehouse?

Bitte lesen Sie meinen Blog zum Thema Business Intelligence – was ist Business Intelligence (BI)?


Datenbank vs. Data Warehouse

der Unterschied Datenbank Datenbank
Designziele Unterstützen Sie den täglichen Geschäftsbetrieb des Unternehmens Unterstützen Sie die Entscheidungsfindung und Analyse im Unternehmen
Datenstruktur anwendungsorientiertes Design themenorientierte Gestaltung
Datenverarbeitungsmethode Online-Transaktionsverarbeitungsmodus ( OLTP). OLAP ( OLAP)-Modus
Datenreichweite aktuelle Statusdaten Speichern Sie historische, vollständige Daten, die historische Änderungen widerspiegeln
Datenänderung Unterstützen Sie häufige Hinzufügungs-, Lösch-, Änderungs- und Abfragevorgänge Kann hinzugefügt, nicht gelöscht, nicht geändert werden und spiegelt historische Änderungen wider
Designtheorie Befolgen Sie die drei Paradigmen und vermeiden Sie Redundanz Verletzung der Normalform, angemessene Redundanz
Verarbeitungskapazität Häufig, kleine Charge, hohe Parallelität, geringe Latenz Selten, großes Volumen, hoher Durchsatz, verzögert

Einzelheiten zum Vergleich zwischen Datenbanken und Data Warehouses finden Sie in meinem Blog – der Unterschied zwischen Data Warehouses und Datenbanken?

OLTP vs. OLAP

Artikel vergleichen OLTP OLAP
Benutzer Betreiber, untergeordnete Manager Entscheidungsträger, Führungskräfte
Funktion Tagesgeschäft Analyseentscheidung
DB-Design Basierend auf ER-Modell, anwendungsorientiert Stern-/Schneeflocken-/Sternbildmodelle, themenorientiert
DB-Größe GB zu TB ≥TB
Daten aktuell, detailliert, zweidimensional, diskret historisch, aggregiert, mehrdimensional, integriert
Speichergröße Mehrere (sogar Hunderte) Datensätze lesen/schreiben Lesen Sie Millionen (oder sogar Hunderte Millionen) Datensätze
Arbeitsfrequenz sehr oft (in Sekunden) Relativ locker (stundenweise oder sogar wöchentlich)
Arbeitseinheit strenge Angelegenheiten komplexe Abfrage
Benutzernummer Hunderte bis mehrere zehn Millionen mehrere bis Hunderte
messen Transaktionsdurchsatz Abfragedurchsatz, Antwortzeit

Einzelheiten zum Vergleich zwischen OLTP und OLAP finden Sie in meinem Blog – der Unterschied zwischen OLTP und OLAP?

Data-Warehouse-Schichtung

Fügen Sie hier eine Bildbeschreibung ein

Einzelheiten zur Schichtung des Data Warehouse finden Sie in meinem Blog – Wie ist die Schichtung des Data Warehouse aufgebaut?

Data Warehouse-Modellierung

Fügen Sie hier eine Bildbeschreibung ein

Einzelheiten zur Modellierungsmethodik finden Sie in meinen folgenden beiden Blogs:

  1. Typische Methodik zur Data Warehouse-Modellierung
  2. Wie wird ein Data Warehouse modelliert?

Datenmarkt

Ein Data Mart ist eine Teilmenge eines Data Warehouse, das auf eine bestimmte Geschäftseinheit oder einen bestimmten Themenbereich spezialisiert ist.
Es konzentriert sich auf die Speicherung eines kleinen Teils der ausgewählten Daten eines Unternehmens in einem größeren Speichersystem
und bezieht Daten aus weniger Quellen als ein Data Warehouse.

Weitere Informationen zu Data Marts finden Sie in meinem Blog – Was ist ein Data Mart? Was ist der Unterschied zwischen Data Mart und Data Warehouse?

Wenn das Data Warehouse als die Datensammlung des gesamten Unternehmens betrachtet wird, kann der Data Mart als eine der Abteilungen betrachtet werden, die nur für die Verarbeitung der Daten eines bestimmten Unternehmens verantwortlich ist.

Data Mart vs. Data Warehouse

Ein Data Warehouse ist ein Repository für das gesamte Unternehmen, das integrierte Daten aus verschiedenen Unternehmen, Systemen und Abteilungen enthält. Es basiert auf einem unternehmensweiten Datenmodell und zielt auf unternehmensweite Themen ab.

Zu den Merkmalen eines Data Warehouse gehören:

  • Unternehmensweite Abdeckung: Das Data Warehouse bietet Entscheidungsunterstützung für Abteilungen und Abläufe im gesamten Unternehmen.
  • Integrierte Daten: Das Data Warehouse führt Daten aus mehreren Unternehmen, Systemen und Abteilungen zusammen und erfüllt durch Datenbereinigung, -integration und -transformation die Analyse- und Berichtsanforderungen des Unternehmens.
  • Architektur auf Unternehmensebene: Ein Data Warehouse ist eine Lösung auf Unternehmensebene, die normalerweise von einem professionellen Team entworfen, erstellt und gewartet wird.
  • Unternehmensorientiertes Thema: Das Thema des Data Warehouse bezieht sich auf den Betrieb des gesamten Unternehmens, z. B. Vertrieb, Kunden, Lieferkette usw.

Data Mart ist ein thematisches Datenrepository für eine bestimmte Geschäftsdomäne oder Funktionseinheit. Es ist in der Regel abteilungsbezogen und bietet Entscheidungsunterstützung für Manager in einem lokalen Bereich.
Zu den Merkmalen eines Data Marts gehören:

  • Anwendung auf Abteilungsebene: Der Data Mart dient hauptsächlich den Geschäftsanforderungen einer bestimmten Abteilung oder Funktionseinheit und stellt Datenanalysen und Berichte für die Abteilung bereit.
  • Abteilungsorientiertes Thema: Das Thema des Data Mart bezieht sich auf ein bestimmtes Unternehmen oder eine Funktionseinheit, z. B. Vertriebsleistung, Marketing, Finanzen usw.
  • Datenquelle: Die Datenquelle des Data Marts kann aus dem Data Warehouse (untergeordneter Data Mart) oder aus verschiedenen Produktionssystemen (unabhängiger Data Mart) bezogen werden.
  • Relativ kleiner Umfang: Der Umfang des Data Mart liegt normalerweise in der Größenordnung von mehreren zehn Gigabyte, was im Vergleich zum Data Warehouse relativ klein ist.

Nachfolgend finden Sie eine Tabelle, die den Unterschied zwischen einem Data Warehouse und einem Data Mart beschreibt:

Datenbank Datenmarkt
Geltungsbereich gesamtes Unternehmen eine bestimmte Abteilung oder Funktionseinheit
Datenquellen Integrieren Sie Daten aus verschiedenen Unternehmen, Systemen und Abteilungen Verfügbar im Data Warehouse oder in jedem Produktionssystem
Skala Größer (Enterprise-Klasse) relativ klein (Abteilungsebene)
die Architektur Unternehmensstruktur Abteilungsstruktur
Thema Für Unternehmensthemen Abteilungsthema
Ziel Entscheidungsunterstützung für alle Abteilungen im gesamten Unternehmen Entscheidungsunterstützung für bestimmte Branchen
Funktion Bieten Sie unternehmensweite Datenanalysen und Berichte Bereitstellung von Datenanalysen und Berichten auf Abteilungsebene

Datensee

Ein Data Lake ist eine Organisationsmethode zum Speichern umfangreicher und vielfältiger Daten . Er kann 结构化, 非结构化und 半结构化qualitativ hochwertige Daten speichern. Es handelt sich um ein großes, flexibles Datenspeicherlager, das alle Datenquellen eines Unternehmens integrieren kann.

Weitere Informationen zu Data Lakes finden Sie in meinem Blog – Was ist ein Data Lake? Warum brauchen Sie einen Data Lake?

strukturierte, halbstrukturierte und unstrukturierte Daten

Strukturierte, halbstrukturierte und unstrukturierte Daten sind verschiedene Arten der Datenklassifizierung.

  1. Strukturierte Daten: Strukturierte Daten beziehen sich auf Daten, die mithilfe einer relationalen Datenbank dargestellt und gespeichert werden können, normalerweise in 二维表Form von . Strukturierte Daten weisen die folgenden Merkmale auf:

    • Die Daten liegen in Zeileneinheiten vor, jede Datenzeile stellt die Informationen einer Entität dar und die Attribute jeder Zeile sind gleich.
    • Daten können durch eine einheitliche Struktur dargestellt werden, beispielsweise durch Zahlen, Symbole usw.
    • Daten können in einer logischen Darstellung einer zweidimensionalen Tabellenstruktur implementiert werden, einschließlich Attributen und Tupeln. Beispielsweise könnte ein Transkript ein Attribut sein und eine Punktzahl von 90 könnte ein entsprechendes Tupel sein.
    • Es gibt bestimmte Regeln für die Speicherung und Anordnung, die für Vorgänge wie Abfragen und Änderungen praktisch sind.
  2. Halbstrukturierte Daten: Halbstrukturierte Daten sind eine Form strukturierter Daten, die nicht vollständig den Spezifikationen relationaler Daten entsprechen. Halbstrukturierte Daten weisen die folgenden Eigenschaften auf:

    • Halbstrukturierte Daten verfügen sowohl über Daten als auch über eine Struktur, die Struktur ist jedoch nicht streng festgelegt.
    • Halbstrukturierte Daten können verschiedene Datendarstellungsformate wie usw. verwenden XML.JSON
    • Die Struktur der Daten kann von Datensatz zu Datensatz variieren, ist aber dennoch einigermaßen analysierbar und organisiert.
    • Halbstrukturierte Daten finden sich häufig in Szenarien wie Webdaten, Protokolldateien und Konfigurationsdateien.
  3. Unstrukturierte Daten: Unstrukturierte Daten beziehen sich auf Daten ohne feste Struktur und Format und können normalerweise nicht in Form einer relationalen Datenbank gespeichert und dargestellt werden. Unstrukturierte Daten weisen die folgenden Merkmale auf:

    • Die Daten haben keine klare Organisationsstruktur und können kostenlose 文本, 图像, 音频und 视频andere Datenformen sein.
    • Unstrukturierte Daten eignen sich nicht für die Speicherung und Verwaltung mithilfe herkömmlicher relationaler Datenbanken.
    • Die Analyse und Verarbeitung unstrukturierter Daten erfordert den Einsatz spezifischer Technologien und Werkzeuge, wie z. B. Verarbeitung natürlicher Sprache, Bildverarbeitung, Audioverarbeitung usw.
    • Unstrukturierte Daten finden sich häufig in Social-Media-Inhalten, E-Mails, Dokumenten, Multimediadateien und mehr.

Zusammenfassend lässt sich sagen, dass strukturierte Daten Daten mit einer festen Struktur und regelmäßiger Anordnung sind, halbstrukturierte Daten eine Datenform zwischen strukturierten Daten und unstrukturierten Daten sind und unstrukturierte Daten Daten ohne klare Struktur und Format sind . Diese unterschiedlichen Arten von Daten erfordern bei der Analyse und Verarbeitung unterschiedliche Methoden und Werkzeuge zu deren Verarbeitung und Verwaltung.

Data Warehouse vs. Data Lake

Parameter Datenbank Datensee
Datenspeicher strukturierte Daten strukturierte, halbstrukturierte und unstrukturierte Daten
Datenaufbereitung Bereinigte und aufbereitete Daten Rohdaten, keine Vorverarbeitung erforderlich
Datenstruktur Vordefinierte Schemata mit striktem Schema Kein festes Schema, Daten werden in Rohform gespeichert
Datenzweck Unterstützung für Business Intelligence und Analytics Unterstützung für explorative Analysen und maschinelles Lernen
Benutzer Geschäftsanalysten und Geschäftsanwender Datenwissenschaftler und Ingenieure
Datenzugriff SQL-Abfrage 多种工具和技术,如Apache Spark和Hadoop
数据规模 相对较小(相对于数据湖) 可以存储大规模数据,包括PB级数据
数据处理方式 提取、转换和加载(ETL) 提取、加载和转换(ELT)
数据处理速度 高性能,适合历史数据分析 高度灵活,适合实时和流式数据分析
数据架构 星型或雪花型 没有特定的数据架构
成本 相对较高,需要预定义模式和规划 相对较低,可以存储各种类型的数据

数据网格

数据网格(DataMesh)是一个新兴的概念,旨在帮助组织更好地管理和利用分散在不同系统和应用程序中的数据资产。它强调将数据资产转化为可重用、可组合、可交互的数据元素,以支持组织内部和跨组织的业务创新和数字化转型。

DataMesh的核心理念是基于事件驱动的架构,通过将业务事件和数据元素相结合,将数据资产转化为可编程的、可组装的服务和功能。这种方法可以帮助组织更好地理解和利用其数据资产,并支持更高效、更灵活的业务流程和数据处理。

DataMesh还强调数据治理和数据安全,以确保数据的准确性、可靠性和安全性。它提供了一组数据管理和治理工具,以帮助组织更好地管理其数据资产,并确保符合法规和标准的要求。

关于数据网格的详情请参考我的博客——数据网格(Data Mesh)是什么?

数据仓库 VS 数据网格

特征 Data Warehouse(数据仓库) DataMesh(数据网格)
来源 传统上,数据仓库是将各种异构数据源集成到一个集中的位置(通常是一个数据库)中。 数据网格将数据分散在不同的领域团队中,每个团队负责自己的数据产品。
数据拥有权 数据仓库通常由中央团队负责管理和维护。 数据网格将数据拥有权下放给领域团队,每个团队可以自主管理和拥有自己的数据。
架构 数据仓库通常采用集中式架构,将数据集成到一个中心存储中。 数据网格采用分布式架构,数据存储在不同的领域团队中,通过标准化的规则和语法进行连接和交互。
数据冗余性和业务对齐 数据仓库通常会合并和整合数据,以消除冗余并满足业务需求。 数据网格允许数据在不同的领域团队之间存在冗余,以满足各自的业务需求。
数据观测性的重要性 数据仓库需要观测数据质量,以确保数据的高质量和可靠性。 数据网格同样需要观测数据质量,确保数据的可靠性和可发现性。
目标 数据仓库旨在提供一个一致、可信赖的数据源,用于企业的决策支持和分析。 数据网格旨在通过领域团队拥有的数据产品,实现更快速的洞察和分析,并推动数据驱动的决策制定。

湖仓一体

湖仓一体是一个全新的开放式数据架构,它将数据湖和数据仓库的优势组合在一起,
提供了数据湖的灵活性和可扩展性以及数据仓库的数据管理功能
这个架构是在数据湖较低成本的数据存储基础设施上构建的,
它不仅保留了数据湖的特点,如存储非结构化数据和半结构化数据
还可以支持事务、数据治理和数据模型化等功能,这些特点是数据仓库所具备的。

关于湖仓一体的详情请参考我的博客——湖仓一体(Lakehouse)是什么?

数据仓库 VS 湖仓一体

特征 数据仓库 湖仓一体
数据存储方式 结构化数据 结构化、半结构化和非结构化数据
数据处理方式 批量处理 批量处理和实时处理
数据集成 集成的 非集成的
数据模型 事实和维度模型 没有明确的数据模型
数据更新频率 周期性更新 实时或近实时更新
数据访问方式 预定义的查询 自助查询
数据可伸缩性 受限制 高度可伸缩
数据安全性 严格的访问控制 灵活的访问控制
数据处理工具和技术 ETL工具和SQL 大数据处理工具和技术
目标用户 决策者和分析师 决策者、分析师和数据科学家

总结

数据库、数据仓库、数据集市、数据湖、数据网格和湖仓一体是数据管理和存储的不同解决方案,它们在以下方面有所区别:

  1. 数据库(Database)是一个存储相关数据的地方,用于捕获特定情况的数据。它可以是结构化、关系型、非结构化或NoSQL数据库。数据库主要用于在线事务处理(OLTP),处理实时的事务数据,并具有特定的目的和应用。
  2. 数据仓库(Data Warehouse)是组织的核心分析系统,用于存储历史数据和支持数据分析。数据仓库与操作数据存储(Operational Data Store,ODS)一起工作,将各种数据库中的数据捕获并统一存储在一个位置。数据仓库采用提取-转换-加载(Extract-Transform-Load,ETL)或类似的ELT过程,将数据从数据库中提取出来,经过转换和清洗后加载到数据仓库中。数据仓库通常使用SQL查询数据,并使用表、索引、键、视图和数据类型进行数据组织和完整性。数据仓库主要用于在线分析处理(OLAP),支持企业内部的数据分析和商业智能。
  3. 数据集市(Data Mart)是数据仓库的子集,为特定的业务部门或业务单元提供数据支持。数据集市通常是针对特定需求进行建立的,以满足某个部门的数据分析和决策需求。数据集市包含在数据仓库中,其中的数据集是为了实时分析和行动结果而使用。
  4. 数据湖(Data Lake)是一个用于存储原始数据的大型存储库,可以存储结构化、半结构化和非结构化数据。数据湖接收来自不同来源的数据,而不对其进行特定格式的转换和处理。数据湖存储的数据可以在需要时进行处理和分析。数据湖适用于需要存储大量原始数据,并进行灵活的数据分析和探索的场景。
  5. 数据网格(DataMesh)是一种数据组织和架构的概念,旨在实现数据的自治和共享。DataMesh鼓励将数据所有权和管理责任下放给数据所有者,以便更好地支持跨组织和跨团队的数据共享和协作。
  6. 湖仓一体(LakeHouse)是将数据湖和数据仓库集成在一起的解决方案。它结合了数据湖的灵活性和数据仓库的结构化分析能力,使得用户可以同时进行原始数据探索和历史数据分析。

综上所述,数据库主要用于在线事务处理,数据仓库用于存储历史数据和支持数据分析,数据集市是数据仓库的子集,满足特定业务部门的需求,数据湖存储原始数据并支持灵活的数据分析,数据网格鼓励数据自治和共享,湖仓一体则是将数据湖和数据仓库集成在一起的解决方案。

下面是一个表格,描述了数据库、数据仓库、数据集市、数据湖、数据网格和湖仓一体之间的主要区别:

数据库(Database) 数据仓库(Data Warehouse) 数据集市(Data Mart) 数据湖(Data Lake) 数据网格(DataMesh) 湖仓一体(LakeHouse)
定义 存储相关数据的地方 存储历史数据和支持数据分析 针对特定业务部门的数据子集 存储原始数据的大型存储库 数据的自治和共享 将数据湖和数据仓库集成的解决方案
用途 在线事务处理(OLTP) 在线分析处理(OLAP) 特定业务部门的数据分析和决策支持 灵活的数据分析和探索 跨组织和跨团队的数据共享和协作 原始数据探索和历史数据分析
数据类型 结构化、关系型、非结构化、NoSQL 结构化 结构化 结构化、半结构化、非结构化 结构化、半结构化、非结构化 结构化、半结构化、非结构化
数据处理 实时事务数据处理 提取-转换-加载(ETL)或类似ELT过程 针对特定需求的数据提取和整合 原始数据存储,按需处理和分析 数据所有者自治,分布式数据共享 结合原始数据探索和历史数据分析
查询 SQL查询 SQL查询 SQL查询 按需处理和分析 分布式数据查询和共享 结合原始数据探索和历史数据分析
数据组织 表、索引、键、视图、数据类型 表、索引、键、视图、数据类型 表、索引、键、视图、数据类型 灵活的数据组织 分布式数据组织和架构 灵活的数据组织
数据共享 有限的共享能力 针对特定用户和部门的共享 Teilen für bestimmte Geschäftseinheiten Der Schwerpunkt liegt auf dem Austausch zwischen Organisationen und Teams Der Schwerpunkt liegt auf Datenautonomie und -freigabe Kombination der Freigabefunktionen von Data Lakes und Data Warehouses
Datenanalyse Transaktionsdatenanalyse in Echtzeit Historische Datenanalyse und Business Intelligence Datenanalyse und Entscheidungsunterstützung für spezifische Geschäftseinheiten Flexible Datenanalyse und -exploration Datenanalyse und Zusammenarbeit zwischen Organisationen und Teams Kombinieren Sie Rohdatenexploration und historische Datenanalyse

Ich denke du magst

Origin blog.csdn.net/Shockang/article/details/131512410
Empfohlen
Rangfolge