re:Invent 2023 | 从现代数据堆栈升级到现代数据湖

关键字: [Amazon Web Services re:Invent 2023, Starburst Galaxy, Modern Data Lake, Data Lake Architecture, Data Access Governance, Open Data Formats, Query Performance Engine]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1Hi4y1v7kc

导读

现代数据堆栈的目标是简化数据生态系统中出现的复杂性。然而,对于当今多样化和动态的数据需求来说,它可能过于僵化。面对灵活性、可扩展性和大规模成本效益的挑战,组织正在将现代数据湖作为现代数据堆栈的升级。在这次闪电式演讲中,了解现代数据湖如何为组织提供一个开放的、面向未来的替代方案,以便从其所有数据中洞察出更丰富的价值。无论是用于数据科学和AI/ML工作负载,还是推动分析,答案都是现代数据湖。本演讲由Starburst(亚马逊云科技合作伙伴)呈现。

演讲精华

以下是小编为您整理的本次演讲的精华，共700字，阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

在亚马逊云科技的re:Invent上，被称为Starburst的Galaxy Gals的Monica和Emma就现代数据堆栈向现代数据湖的转变进行了一场引人入胜的讨论。他们首先回顾了现代数据堆栈的背景，指出在过去五年里，人们尝试通过采用新的云数据技术（例如亚马逊云科技）来简化过度复杂的传统数据架构。然而，Monica解释道，现代数据堆栈的定义因人而已，并未实现最初的降低复杂性的承诺。为了说明这一点，她展示了一个典型的现代数据堆栈架构图，图中包含了用于摄入、转换、存储、可视化、测试、治理和监控的多个组件。她将这与传统的一键云重做的“数据包”进行了对比。Emma对此表示赞同，并根据她在过去的公司担任数据工程师的经历，阐述了现代化遗留内部数据架构的任务。她的团队只是将旧组件替换为新的亚马逊云科技云组件（如S3和Redshift），而并未从根本上改变底层架构。在她的看法中，现代数据堆栈是一个“大谎言”，因为它只是复制而非真正实现现代化。

Emma进一步强调，并非所有数据都需要迁移到云数据仓库才能实现现代化。她建议观众不要将所有数据集中于此，而是要根据每个使用情况构建合适的存储解决方案。通常在亚马逊云科技上，基于开源技术的冰山、Delta Lake和Hudi搭建的数据湖是最佳选择，特别是当添加ACID交易和数据中心能力时，低成本的对象存储具有很大的优势。数据湖的存储和计算分离使得能够为开放数据标准建立系统并避免供应商锁定。

艾玛强调通过有组织的数据湖策略来避免"数据沼泽",其中包括原始区域、结构区域和消费区域。莫尼卡强调了选择高性能、可扩展的查询引擎如Trino的重要性，它可以处理各种交互式和批量工作负载，并使用EC2弹性地扩展计算能力。利用Parquet、ORC和Avro等开放式表格式可以提高存储和查询效率。他们强调了提供单一访问点和管理方法，以便用户可以轻松地进入数据湖并访问外部数据源。一个语义层允许跨多个数据源进行联邦数据的访问，打破了将所有数据集中到云数据仓库的神话。

借鉴这些经验，Starburst开发了他们的Starburst Galaxy平台，在亚马逊云上实现了现代数据湖架构。它分为三个层次：多样化的数据源和表的单一访问点；一个从Trino增强的容错性、高性能的SQL查询引擎，可以在高达60TB的数据上执行查询；以及Gravity治理层用于发现、安全和共享数据。

艾玛通过Starburst Galaxy解释了如何消除集成问题和将组件整合到统一分析平台的过程。它从统一的数据访问开始，让用户可以在任何地方查询数据。其创新之处在于他们的高性能SQL查询引擎，专为S3上的数据湖优化，利用nano-block索引快速查询对象存储，并将亚马逊云S3存储成本降低高达70%。在一个引擎中运行交互式和批量工作负载，降低了与Spark等替代方案的复杂性。最后，Gravity治理层使发现、保护和分享数据成为可能。

莫尼卡强调了Starburst新公布的数据湖功能，包括将数据流入Iceberg表、使用ML模型自动数据分类、表优化和可信数据共享。有了强大的数据管道、治理和访问权限，用户可以在亚马逊云上构建和激活现代数据湖。

艾玛强调Starburst Galaxy是基于开源的，不会让用户陷入任何特定的数据源或云提供商。用户在任意位置都能完全控制自己的数据。该平台为混合和多云环境提供了统一的数据访问、安全、治理和分析抽象层。

在总结中，Monica和Emma再次强调，尽管现代数据堆栈声称要提供简单性和灵活性，但实际上它并未实现这一承诺。他们认为，采用分离的存储和计算、高性能查询引擎以及统一的数据访问和治理的现代数据湖架构更加优越。他们邀请大家前往Starburst展台了解更多信息，并观看Starburst Galaxy及其新功能的演示。

下面是一些演讲现场的精彩瞬间：

领导者们讨论了从现代数据栈向现代数据湖转型的重要性和价值。

随着现代数据栈变得愈发复杂，其中包含了大量用于摄入、转换、存储、可视化、测试、治理和监控的组件，领导者们强调了在向云端迁移过程中重新审视数据架构设计而不仅仅是复制传统系统的重要性。

典型的架构图中展示了一系列集成技术，例如Apache Ranger、Lake Formation以及对象存储等技术，这些共同构成了数据湖的基础设施。

Gravity作为一个统一的平台，能够支持数据发现、治理和共享，从而确保安全性的协同工作。

此外，亚马逊云科技还引入了一种基于人工智能的自动数据分类和优化功能，以便更智能地识别敏感数据并对数据湖进行优化。

总结

本次演讲的核心主题是关于从传统的现代数据栈架构向现代化的数据湖架构转变。现代数据栈旨在简化并提供灵活的数据架构，然而实际上却加剧了云端中传统复杂性的问题。

据演讲者表示，公司不应该将所有的数据都集中到云数据仓库作为现代数据栈的一部分，而是应该构建一个充分利用诸如S3等存储服务、Iceberg和Delta Lake等开放式文件格式、具有高性能且可扩展的查询引擎以及跨源统一数据访问和治理的现代数据湖。

一些关键的观点包括：

现代数据栈并未真正实现数据架构的现代化，往往只是在云中重复传统系统的做法。因此，不应将云数据仓库视为默认的解决方案。
在构建现代数据湖时，需要利用可扩展的对象存储服务、能够在数据湖上提供ACID事务支持的开放式表格式、高性能的查询引擎以及跨源的统一数据访问和治理机制。
Starburst Galaxy提供了一个高性能、可靠且成本效益高的现代数据湖所需的动力、治理和访问功能，这些都是在开放标准的基础上实现的。

总的来说，数据团队不应该默认选择以云数据仓库为核心的现代数据栈，而应该逐步通过构建基于开放标准的云原生数据湖来实现其架构的现代化。这种做法不仅提供了灵活性，避免了供应商锁定，还满足了现代数据的多样化需求。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134868263

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。