元数据及数据仓库相关概念

元数据(metadata)的概念

Data about Data

  • 狭义的解释是用来描述数据的数据
  • 广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息、数据都可以叫作元数据

定义

按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。
在这里插入图片描述

技术元数据

存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据

  • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;
  • 业务系统、数据仓库和数据集市的体系结构和模式
  • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;
  • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

业务元数据

从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据

  • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
  • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
  • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

总结

搭建数据仓库中最容易缺失的就是对元数据的管理,很少有数据仓库团队具备完整的元数据,当然搭建数据仓库的工程师本身就是活的元数据,但无论是为了用数据的人还是数据仓库自身的团队着想,元数据都不可或缺。一方面元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们能自主地快速获取数据,另一方面数据仓库团队成员可以从日常的数据解释中解脱出来,无论是对后期的不断迭代更新和维护还是培训新的员工,都非常有好处,元数据可以让数据仓库的应用和维护更加高效。

数据仓库

ODS简单的理解为 Operational Data Store, 运营数据仓储 数据整合层(也叫做数据缓冲层)

  • ODS存储了运营系统(如OLTP(联机事务处理)系统)近实时的详细数据
  • 为了寻找能满足快速加载和数据整合的性能要求,并且减少面向分析需求的变更和扩充对生产系统影响的解决方案

EDW简单理解为 Enterprise Data Warehouse, 企业数据仓库

  • 为企业各级的经营决策和市场营销提供及时、精确、全面的数据支持和科学、方便、体系化的分析工具和使用方法,为除生产系统以外的管理、分析等需求提供数据支撑,实现业务数据与分析数据的分离。
  • 解决目前市场等部门信息获取能力和分析决策手段不能适应企业环境变化和精确化管理要求的问题,并通过各种形式的主题,专题分析,支撑针对性营销、上市信息披露、精确化管理.有效降低营销成本,减少客户流失,寻找商机,达到提升企业价值的目的。

ODS与EDW之间的差异

使用角色

  • ODS主要面向营业、渠道等一线生产人员和一线管理人员,为了实现准实时、跨系统的运营细节数据的查询,以获得细粒度的运营数据展现,例如渠道人员查询客户的全视图信息由ODS提供数据支撑。
  • EDW主要面向专业分析人员、辅助决策支持人员等,为了实现基于历史数据的统计分析和数据挖掘,以获得客户深层次的特征和市场发展的规律,例如专业分析人员的经营状况趋势分析由EDW提供支撑。

数据来源

  • ODS需要的大部分运营数据直接来源生产系统。 ODS中的部分分析结果数据来源于EDW,例如客户洞察信息等[^1]。
  • EDW需要的运营数据,如果在ODS中已存在,EDW则直接从ODS获取这部分数据。· EDW需要的运营数据,如果在ODS中没有,EDW则直接从生产系统获取这部分数据。

数据获取性能和及时性

  • ODS支持OLTP类型的数据更新,数据更新时间短,数据可实现准实时更新,性能与及时性都高于EDW
  • EDW中的数据一般通过批量加载进入,数据更新速度慢,无法实现准实时更新,数据更新时间不足以支持实时的报表和事件监控需求。

数据架构

  • ODS以关注生产运营过程的统计与监控为主的生产视角主题域方式来组织数据;ODS提供操作数据的统计,主要提供应用需要的细粒度运营数据。ODS中也存在部分粗粒度汇总数据,但汇总的维度少且简单
  • EDW关注对历史数据的深层次分析与挖掘.从分析与挖掘的需要出发按不同主题维度来汇总与组织数据。EDW提供历史数据的展示和分析,主要提供多层粗粒度汇总数据.汇总的维度多且复杂。

数据共享能力

  • ODS为其他生产系统提供运营数据的准实时数据共享服务
  • EDW一般不为生产系统提供此类准实时的数据共享服务。系统中的数据只供本系统分析与挖掘应用使用。

数据系统提供应用数据查询

  • ODS提供生产环境下的数据查询,查询的交易量较小,不耗费太多资源,有确定的完成速度。而EDW提供分析环境下的查询,查询单元量较大,消耗的资源很多,完成的速度也不确定
  • ODS提供生产环境下实时性较高的生产经营报表,而EDW提供分析环境下的主题分析与挖掘报表。动态报表。
  • ODS提供面向少量维度的细粒度数据的统计,而EDW提供面向多个维度的多层粗粒度数据的主题统计、分析及深层次的挖掘。
  • ODS提供绩效管理和统计、数据质量审计和监控管理等功能。
  • EDW提供趋势分析、客户消费行为分析和评估等功能

数据存储

  • 客户等关键实体数据。ODS长久保存当前数据,EDW长久保存当前与历史数据。
  • 详单数据。ODS保存1个月到3个月;EDW保存2年。
  • 汇总数据。ODS保存3年;EDW保存5年。
  • 其他数据。ODS保存l3个月;EDW保存3年

系统技术特征

  • ODS主要面对大并发用户数、小数据量的访问,EDW主要面对小并发用户数、大数据量的访问。
  • ODS数据库优化同时侧重索引和分区技术;EDW数据库优化主要侧重分区技术。
  • ODS支持OLTP类型和OLAP(联机分析处理)类型的数据操作,EDW支持OLAP类型的数据操作。

系统可靠性

  • ODS参与运营.必须保证可靠性。
  • 相对ODS.EDW可以允许有更多的脱机时间。

系统开放性

  • 因为需要与大量不同硬件、数据库配置的系统相互交换数据。ODS要求比较高的系统开放性。
  • EDW一般只获取数据.而不提供给其他应用系统以多种模式直接访问,解决方案上也可采用相对封闭的数据库、软硬件平台

数据仓库分层

最底层的细节数据

管理策略是优化存储,一般存储导入的原始数据,便于进行向上的统计汇总,因为数据量较大所以需要优化存储

中间层是多维模型

管理策略是优化结构和查询,面向主题的多维模型的设计,需要满足OLAP和数据查询的多样需求,同时保证查询的便捷性,关键在与维表的设计和维度的选择及组合,事实表需要关注存储和索引的优化;
####最上层是展现数据
管理策略是优化效率,一般会存放每天需要展现的汇总报表,或者根据多维模型拼装的视图,展现层的数据需要以最快的速度展现出来,一般用于BI平台的Dashboard和报表。

参考资料

  1. 从概念到应用再到架构,一篇文章彻底读懂元数据管理 http://www.360doc.com/content/16/1029/08/17488509_602243527.shtml
  2. 聊一聊数据仓库中的元数据管理系统 https://yq.aliyun.com/articles/174269
  3. 浅析ODS与EDW 关系 https://www.cnblogs.com/quchunhui/articles/5340382.html
  4. 数据仓库 http://webdataanalysis.net/no-category/questions-3/

猜你喜欢

转载自blog.csdn.net/frone/article/details/82878869