湖仓一体介绍

湖仓一体(Lakehouse)是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。

2023年6月26日,湖仓一体入选“2023大数据十大关键词”。

基本介绍

湖仓一体

湖仓一体(Data Lakehouse)是当前大数据领域热度最高的词汇,这一概念于2020年首次提出,是数据湖和数据仓库合二为一的新词汇。

业界普遍认为,湖仓一体将成为数据库行业的未来趋势。

大数据的处理过程是一个提升数据结构化程度和信息密度的过程,不同的数据适合的存储方式也有所不同。诞生于1990年的「数据仓库」适合存储结构化、信息密度高、经过处理后的数据,它的优势是存储规范,易于快速读取,弊端是灵活性不足;诞生于2011年的「数据湖」可以低成本存储任何形式及格式的原始数据,但它的弊端是缺乏结构性,一旦没有被治理好,就会变成数据沼泽。

而「湖仓一体」是一种将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的新型融合架构,类似于在湖边搭建了很多小仓库,有的负责数据分析,有的运转机器学习,有的来检索音视频等,数据源流都可以从数据湖里轻松获取。

云原生产业联盟发布了首个金融行业《云原生湖仓一体白皮书》,该报告由信通院牵头,参编单位包括偶数科技、中国联通、中信建投、人寿保险。该报告首先介绍了数据平台发展的三个重要阶段,通过对于发展历程的总结,引出了行业用户在进行数据分析和处理中面临的瓶颈难题,并且重点从主要架构、关键技术、方案特征、应用价值等方面的介绍了云原生湖仓一体最佳解决方案。之后,通过对于湖仓生态版图、代表厂商和代表解决方案的分析,力求反应现阶段国内湖仓生态现状。最后,从银行、保险、证券用户单位的不同角度出发,开展了较为详实的场景化应用分析,并进行了总结与展望。

行业事件

赛迪顾问正式发布了国内首份《湖仓一体技术研究报告》,报告选取了业界比较主流的6个湖仓一体产品进行对比分析,包括海外厂商Snowflake、Databricks及亚马逊AWS智能湖仓,国内厂商巨杉数据库SequoiaDB、阿里云MaxCompute湖仓一体方案、华为云FusionInsight。

湖仓一体的特性

(1)事务支持:在企业中,数据往往要为业务系统提供并发的读取和写入。对事务的ACID支持,可确保数据并发访问的一致性、正确性,尤其是在SQL的访问模式下。

(2)数据的模型化和数据治理:湖仓一体可以支持各类数据模型的实现和转变,支持DW模式架构,例如星型模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。

(3)BI支持:湖仓一体支持直接在源数据上使用BI工具,这样可以加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。

(4)存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。(一些新型的数据仓库已经采用了这种架构)

(5)开放性:采用开放、标准化的存储格式(例如Parquet等),提供丰富的API支持,因此,各种工具和引擎(包括机器学习和Python / R库)可以高效地对数据进行直接访问。

(6)支持多种数据类型(结构化、半结构化、非结构化):湖仓一体可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。

(7)支持各种工作负载:支持包括数据科学、机器学习、SQL查询、分析等多种负载类型。这些工作负载可能需要多种工具来支持,但它们都由同一个数据库来支撑。

(8)端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,不再像以往一样,为实时数据服务构建专用的系统。

湖仓一体应用场景

场景一:服务于数据中台的实时数仓。由于数据中台要求其数据库在分析处理过程中,需强调事务一致性,并保持低延迟与提升实时处理能力,这些都是湖仓一体的典型技术特性。

场景二:支撑微服务的数据融合底座。可有效解决扩展困难以及维护困难的问题。

场景三:全量数据实时访问平台。在数字化转型过程中,对客实时查询,历史数据服务平台,或IoT物联网系统中,会产生实时处理海量数据的需求,湖仓一体的弹性扩展能力能够很好满足这一需求。

场景四:进行非结构化数据处理,数字化转型中通过AI机器学习及比对分析,非结构化数据将包含更多元化的业务属性,为各类业务系统提供信息输入。湖仓一体能够有效提升非结构化数据的处理能力。

市场现状

现阶段,国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案,比如亚马逊云科技的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、偶数科技的Skylab、滴普科技的FastData等。

所获荣誉

2023年6月26日,在北京举办的2023大数据产业发展大会上,湖仓一体入选“2023大数据十大关键词”。

转自:湖仓一体_百度百科

猜你喜欢

转载自blog.csdn.net/fuhanghang/article/details/132168027