Dremio 数据湖以及数据仓库

一. 数据湖和数据仓库

什么是数据湖?

数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。将不同存储类型、不同种类的数据汇聚在一起。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。例如在一个存储集群中分别有MySQL、Mongodb、s3等等数仓数据,这个存储集群统一对外就是一个数据湖了。

数据湖的目的和优势

数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。通常将所有数据移到数据湖中不进行转换。数据湖中的每一个数据元素都分配一个唯一的标识符。

什么数据仓库?

数据仓库是位于多个数据库上的大容量存储库。作用是存储大量的结构化数据并能进行频繁和可重复的分析。数据仓库用于汇集各种结构化源的数据以进行分析。数据仓库也可处理非结构化数据。

数据湖和数据仓库之间差异

  • 在存储方面,数据湖中的数据是非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库的数据重事务系统中提取。在数据加载到数据仓库之前,会对数据进行清理和转换。
  • 在数据抓取中,数据湖就是捕获半结构化和非结构化数据。数据仓库捕获结构化数据并按模式组织。
  • 目的不同。数据湖非常适合深入分析非结构化数据,被用于预测建模和统计分析的高级分析工具。而数据仓库适用于月度报告等操作用途,高度结构化
  • 架构方面,数据湖通常存储数据之后定义架构。在数据仓库是使用数据前定义架构。
    数据湖和数据仓库对比

数据湖引擎

数据湖引擎是一种开源软件解决方案或云服务,通过一组统一的API和数据模型为分析工作负载的各种数据源提供关键功能 。
解决的问题:解决了快速访问、快速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面需求。
任务:将结构化、非结构化数据转移到关系环境中,创建多维数据集,并为不同的分析工具生成专用视图。
如何使用:数据湖疫情介于管理数据系统、分析可视化和数据处理工具之间,部署在现有的数据源和数据使用者的工具上。使用标准SQL通过DDBC、JDBC或REST进行访问,数据湖引擎尽可能高效地访问和保护数据。
优势:数据湖引擎不是将数据移动到单个存储库中,而是在数据原本存储的地方访问数据,并动态地执行任何必要的数据转换和汇总

二. Dremio

Dremio是新一代的数据湖引擎,通过直接在云数据湖存储中进行实时的、交互的查询来释放数据价值。
使用数据湖引擎 Dremio 最大限度地发挥数据的作用。Dremio 使用高性能和高效率的查询引擎来操作您的数据湖存储并加速您的分析过程,同时还通过受管控的自助服务层使数据科学家和分析师的数据访问民主化。结果是以最低的每次查询成本为 IT 和数据湖所有者提供快速、轻松的数据分析。

分离数据和计算

利用 Dremio 直接针对您自己的数据湖存储中的 PB 级数据运行实时交互式查询,完全避免数据复制、移动和锁定。Dremio 超越了存储和计算的分离,通过开放的、同类最佳的架构来分离数据和计算,在该架构中任何计算引擎都可以处理您的数据。

使用基于Apache Arrow的查询引擎加速—并节省90%

利用多阶段加速驱动闪电般的查询直接在您的数据湖存储。当您将这种效率与弹性引擎的额外节省相结合时,与传统的SQL引擎方法相比,您将减少90%的AWS计算成本。如下图:
在这里插入图片描述

DREMIO - 数据湖引擎

Dremio 的数据湖引擎提供闪电般的查询速度和直接针对您的数据湖存储运行的自助语义层。

  • 闪电般的查询
  • 自定义语义层
  • 灵活开源的技术
  • 强大的JOIN能力

闪电般的查询:这些查询直接对数据湖存储进行操作;连接到 S3、ADLS、Hadoop 或您的数据所在的任何地方。像数据反射(Data Reflections), 列式云缓存(Columnar Cloud Cache (C3))和预测性流水线(Predictive Pipelining)这样的Dremio技术与Apache Arrow一起工作,可以非常快地对你的数据湖存储进行查询。
闪电查询

使用预测性流水线和列云缓存加速读取

Dremio的预测性流水线技术刚好在执行引擎需要数据之前获取数据,极大地减少了引擎等待数据的时间。我们的列式云缓存(C3)在访问本地NVMe时自动缓存数据,使您的数据湖存储具有NVMe级别的性能。

为云构建的现代执行引擎

Dremio 的执行引擎基于 Apache Arrow(列式内存分析标准)构建,并利用 Gandiva 将查询编译为针对现代 CPU 优化的矢量化代码。单个 Dremio 集群可以弹性扩展以满足任何数据量或工作负载,您甚至可以拥有多个具有自动查询路由的集群。

数据反射——极速的 ON 开关

只需点击几下,Dremio 就可以让您创建数据反射,这是一种物理优化的数据结构,可以加速各种查询模式。创建任意数量或任意数量;Dremio 以无形且自动的方式将反射合并到查询计划中,并使其数据保持最新。

Arrow Flight 移动数据的速度提高了 1,000 倍

ODBC 和 JDBC 是在 1990 年代为小数据设计的,需要对所有记录进行序列化和反序列化。Arrow Flight 用高速分布式协议取代它们,旨在处理大数据,使客户端应用程序和 Dremio 之间的吞吐量增加 1,000 倍。您现在可以在几秒钟内用数百万条记录填充客户端 Python 或 R 数据框。

自助语义层

抽象层使 IT 能够应用安全性和业务意义,同时使分析师和数据科学家能够探索数据并导出新的虚拟数据集。

数据反射、列式云缓存 (C3) 和预测管道等 Dremio 技术与 Apache Arrow 一起工作,可以非常非常快地对数据湖存储进行查询。

用户生成的语义层

Dremio 的语义层是一个集成的、可搜索的目录,可为您的所有元数据编制索引,因此业务用户可以轻松理解您的数据。虚拟数据集和空间构成了语义层,并且都被索引和搜索。
在这里插入图片描述

参考以下:
链接: 一文了解数据湖引擎.
Dremio 杀死所有数据仓库.
Dremio 文档 .
Dremio简述.

猜你喜欢

转载自blog.csdn.net/daining424/article/details/118751841
今日推荐