数据湖

2018.2.21
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

我们生活在数据时代，根据Gartner的报告，全球信息数据量每年以59％的速度递增。管理海量数据是一个重大挑战，数据的品种和增长速度使管理变得更加困难。而且非常明显的是，越来越巨量的数据随着时间在继续生成，特别是在手持设备和互联网连接设备数量的指数增长的背景下。

对于参与其中的组织来说，这是事实——但对于其他传统组织来说，数据量的增长并不是那么高。不同组织的数据量不同。尽管存在这种差异，但它们之间的一个共同因素是，对于不同的利益相关方来说，进行有意义且有用的分析的重要性。随着越来越多的组织使用不同功能的工具，为不同利益相关者生成有意义且有用的报告的任务变得越来越具有挑战性。

什么是数据湖？

Gartner研究总监Nick Heudecker解释了数据湖：

“从广义上讲，数据湖作为企业范围的数据管理平台进行销售，以分析原生格式的不同数据源。这个想法很简单：不是将数据放入专门构建的数据存储区，而是将其移入原始格式的数据湖。这消除了数据摄入的前期成本，如转换。数据放入湖中后，可供组织中的每个人分析。”

因此，数据湖通过打破数据孤岛，帮助企业洞察数据。“数据湖”一词在2010年首次使用，其定义/特征仍在不断演变。一般来说，“数据湖”指的是一个中央存储库，能够存储从各种内部和外部源以接近原始数据的格式获取的Zettabytes数据。

数据湖的挑战

数据湖通常被认为是收集和整理来自遗留系统和来源，数据仓库和分析系统，第三方数据，社交媒体数据，点击流数据以及可能被视为有用信息的所有企业数据企业。虽然这个定义很有趣，但它对每个组织来说都是可行的还是必需的？

不同的组织具有不同的分布式数据挑战和模式，并且随着场景的多样化，每个组织都有自己的数据湖需求。虽然数据的需求，模式，来源和体系结构不同，但在构建中央存储或数据中心方面面临的挑战是相同的：

将来自不同来源的数据导入共同的中央池
处理少量但高度多样化的数据
与数据仓库或大数据相比，将数据存储在低成本基础架构中
与中央数据存储接近实时同步数据
中央数据的可追溯性和治理

数据湖的实施注意事项

在大多数情况下，数据湖与数据即服务模型的实质部署在一起，被视为集中记录系统，为企业级别的其他系统提供服务。本地化数据湖不仅扩展到支持多个团队，而且还生成多个数据湖实例以支持更大的需求。这些集中的数据可以被所有不同的团队用于分析需求。

有了这些理解，就可以在集成和治理方面讨论数据湖泊的各种需求。

数据湖整合的挑战

为了在企业级部署数据湖，它需要具备某些功能，以便将其整合到组织的整体数据管理策略，IT应用程序和数据流环境中。

为了使数据湖的数据在以后的时间点有用，确保湖泊在正确的时间获取正确的数据非常重要。例如，数据湖可能会从企业财务软件中提取月度销售数据。如果数据湖太早接收数据，它可能只会获得部分数据集或根本没有数据。这可能会导致报告不准确，导致公司朝错误的方向发展。因此，将数据总体背景中的数据集成平台运行到数据湖应该能够根据业务情况实时和按需地从各种工具推送数据。
虽然数据库的主要目的是存储数据，但有时（基于不同的业务案例，为了方便其他部门将来使用这些数据），一些数据需要在插入数据之前进行提取或处理湖。因此，集成平台不仅应该支持这一点，还要确保数据处理的准确性和正确的顺序。
只有当存储的数据可以被所有不同部门提取以供自己使用时，集中式数据存储才是有用的。应该有能力将数据湖与其他应用程序或下游报告/分析系统集成。数据湖应该也支持REST API，不同的应用程序可以通过它们交互来获取或推送他们自己的数据。

数据湖治理的挑战

数据湖不仅仅是集中存储数据并在需要时将其提供给不同的部门。随着越来越多的用户开始直接使用数据湖或通过下游应用程序或分析工具，数据湖治理的重要性也随之增加。数据湖通过将来自不同储存库的多样化数据集引入单一储存库，创造了新的挑战和机遇。

主要挑战是确保数据治理政策和程序的存在并在数据湖中实施。每个数据集的拥有者在进入湖泊时都应该有明确的定义。应该有一个关于每个数据所需的可访问性，完整性，一致性和更新的非常详细的政策或指南。

为了解决上述问题，数据湖中应该有内置的机制来跟踪和记录数据湖中存在的任何数据资产的操纵。

数据湖对每个人都是一样的吗？

对于所有组织而言，数据湖的实施情况并不相同，因为数据量和数据收集要求因组织而异。总的来说，数据湖带来的观念是数据量应该在PB级或甚至更多，并且需要使用NoSQL数据库来实现。实际上，这些数据量和NoSQL DB的实现可能并不是所有组织都可能需要或可能无法实现的。拥有适合组织所有分析需求的中央数据存储的最终目标可以从SQL DB开始，并具有相当大的数据量。

数据湖