数据集市和数据仓库之间有什么关系

1.数据仓库与数据集市的区别

1.1 数据仓库

数据仓库是一个面向主题的、集成的、相对稳定的 、反映历史变化的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

1.2 数据集市

数据集市是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性和性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市的特征主要有:

  1. 规模小;
  2. 面向部门;
  3. 有特定的应用;
  4. 由业务部门定义、设计和开发;
  5. 业务部门管理和维护;
  6. 能快速实现;
  7. 购买比较便宜;
  8. 投资快速回收;
  9. 工具集的紧密集成;
  10. 提供更详细的、预先存在的、数据仓库的摘要子集;
  11. 可升级到完整的数据仓库。

1.3 主要区别

  • 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段。
  • 而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
数据仓库 数据集市
数据的来源 生产系统,外部数据等 数据仓库
范围规模 企业级 部门级或工作组级
主题 以企业为主题 以部门或特殊的分析为主题
数据粒度 最细的粒度 较粗的粒度
数据结构 第三范式,规范化结构 星型模型,雪花模型,星座模型
历史数据 大量的历史数据 适度的历史数据
优化 处理海量数据,数据探索 便于访问分析、快速查询
索引 高度索引 高度索引

2.如何建立数据集市

数据仓库(集市)的设计可以采用迭代式的方法。在迭代式开发中,每个迭代为上一次的结果增加了新的功能。功能增加的顺序要考虑到迭代平衡以及尽早发现重大风险。通俗地说,就是在正式交货之前多次给客户交付不完善的中间产品“试用”。这些中间产品会有一些功能还没有添加进去、还不稳定,但是客户提出修改意见以后,开发人员能够更好地理解客户的需求。如此反复,使得产品在质量上能够逐渐逼近客户的要求。这种开发方法周期长、成本高,但是它能够避免整个项目推倒重来的风险,比较适合大项目、高风险项目。

理论上讲,应该有一个总的数据仓库的概念,然后才有数据集市。实际建设数据仓库(集市)的时候,国内很少这么做。国内一般会先从数据集市入手,就某一个特定的主题(比如企业的客户信息)先做数据集市,再建设数据仓库。数据仓库和数据集市建立的先后次序之分,是和设计方法紧密相关的。而数据仓库作为工程学科,并没有对错之分,主要判别方式应该是能否解决目前存在的实际问题,并为今后可能发生的问题保持一定的可伸缩性。

相关文章:

1.数据集市

2数据集市建设、数据质量及数据管理方法

猜你喜欢

转载自blog.csdn.net/weixin_42526352/article/details/104743933