数据湖是什么

数据湖(Data Lake)是大数据系统中的一个重要概念,其主要特征是:

1. 集中存储所有原始数据

数据湖试图存放所有可获得的原始数据,包括结构化数据、半结构化数据及非结构化数据。

2. 架构灵活可扩展

数据湖采用扁平化的分布式文件系统存储数据,这种架构具有很强的扩展性。

3. 多种数据格式

数据湖能够存储多种格式的数据,包括日志、CSV、JSON、视频等不同格式。

4. 统一元数据管理

使用元数据对数据源进行注册管理,包括数据定义、标签等关键属性数据。

5. 对外暴露查询接口

数据湖对外提供查询接口,使用SQL等查询数据,可插拔不同的查询引擎。

6. 动态探索分析

数据科学家可以对数据湖进行动态的探索分析,以发现数据价值。

7. 成本优势

相比传统数据仓库,数据湖的存储成本更低。

数据湖让企业能够以更低成本存储大量原始数据,并进行探索性分析。

数据湖和数据仓库的主要区别为:

1. 数据形式
数据仓库存储经过提取、转换、加载(ETL)后的数据集,通常是结构化数据。数据湖存储所有的原始数据,包括结构化、半结构化和非结构化数据。

2. 数据处理时间
数据仓库在数据传入前需要预定义 schema,数据加载前进行数据清洗转换。数据湖允许原始数据直接加载,数据处理可以延迟进行。

3. 存储方式
数据仓库采用关系型数据库存储数据。数据湖采用HDFS等分布式文件系统存储数据。

4. 查询性能
数据仓库基于预定义的schema,查询性能较高。数据湖查询性能较差,需要即席查询。

5. 数据粒度
数据仓库存储的是经聚合的细粒度数据。数据湖存储最原始的数据,粒度更细。

6. 可扩展性
数据仓库扩展性较差,需要复杂迁移。数据湖基于分布式文件系统,可横向扩展。

7. 数据一致性
数据仓库数据一致性较高。数据湖由于包含各种原始数据,一致性较差。

8. 业务目标
数据仓库更适合标准报表和分析。数据湖更适合数据探索和机器学习。

猜你喜欢

转载自blog.csdn.net/diannao720/article/details/132458952