数据仓库知识随记-数据湖

今天去Teradata的网站学习了它的产品体系，大概弄明白了前几天所听到的“数据湖”的概念，以及它所应用的场景。

Data lakes and data warehouses are both design patterns, but they are actually polar opposites. Data warehouses are an approach based on structuring and packaging data for the sake of quality, consistency, reuse, ease of use, and performance with high concurrency levels. Data lakes go the other direction, complementing data warehouses with a design pattern that focuses on original raw data fidelity and long-term storage at a low cost while providing a new form of analytical agility.

上面是从它的产品白皮书中摘录出来的，比较清楚地解释了数据仓库和数据湖的区别。可以简单理解为，数据仓库是面向分析的设计，侧重于易用和执行效率；而数据湖则注重数据保留，保证数据的长期低成本存储，以应对未知形式的分析。这也让我理解了前几天听到的一个大数据架构：即ODS层、数据湖、数据仓库、集市层，在这个架构下，数据仓库可以不必将所有的数据都保存下来，只需要将明确了分析需求的数据建模即可，暂时用不到的数据和过久的历史数据可以保存到数据湖中，从而可以降低数据仓库建设的复杂度，避免为了应对未知分析而做出的“过度”设计。
虽然四达经分的数据复杂度、分析需求还不需要建设专门的数据湖，但从层次上划分出数据湖层还是可以的，

ODS层：把原始数据抽取加载过来，不改变数据结构，不做数据处理，不长期保留（一年以内足以）；
数据湖层：建立企业数据模型，将多源数据整合后形成统一数据模型。对于非结构化的数据，直接保存其原始数据即可，如日志。
数据仓库：维度建模，分主题创建数据模型。对于分析频率不高、暂时不明确需求的数据，可以仅建模至数据湖层；

数据仓库知识随记-数据湖

猜你喜欢