数据仓库结构设计与实施-拆书稿(维度建模理论)

拆书稿-数据仓库结构设计与实施

在这里插入图片描述

本篇文章内容目录

第一部分:数据仓库总体结构(原书第二章)

1 金字塔结构
2 元数据与模型
3 映像
4 数据仓库三要素
5 多维总计方阵
6 方阵和数据集市的区别

第二部分:数据仓库设计与应用开发(原书第五章)

数据仓库层次结构
数据仓库概念设计
数据仓库逻辑设计
数据仓库物理设计

正文开始

第一部分:数据仓库总体结构(原书第二章)

1 金字塔结构

金字塔从底层向上,体现出强大的收敛与聚合功能,层面越高越能高度地概括更丰富、更有意义的信息;层面越低,数据体量越大,细节程度越高,信息越具体。每个层面相互依托又互相关联。
在这里插入图片描述
数据仓库的金字塔结构和层次1
在这里插入图片描述
数据仓库的金字塔结构和层次2
在这里插入图片描述

数据仓库结构生态图

在这里插入图片描述
其中上图中有一个概念叫:过渡区,它为什么存在?并且有什么存在的价值?
① 为什么存在?

  • 提前可以做数据预处理
    来自数据源的数据在到达数据仓库之前,需要经过一些中间处理过程,而ETL常常是批量执行,是一些通用任务,无法完成定制化个性统计需求。而在数据源到数据仓库中间建立过渡区,可以针对特定数据进行预处理。例如:过滤空值、过滤多余字段、进行数据类型转换等等。

② 存在的价值?

  • 第一、数据源和数据仓库进行隔离
  • 第二、过渡区可作为数据接收切面,接纳不同数据源,数据仓库只需要从过度区获取数据。架构清晰
  • 第三、过度区可以在数据允许的条件下提供数据支持,减少数据源数据提取的压力。
2 元数据与模型

分类:元数据主要有两种类型的模型

  • 数据模型
  • 应用模型

元数据定义: 说明数据的数据。像数据库中的数据字典,或者数据表与表之间的关系。
作用:用于描述从操作型系统到分析型系统的映射,描述数据源、数据更新、总计数据的算法和数据提取的频率。
模型的建立流程: 概念模型 、逻辑模型、物理模型

3 映像

映像是一系列结构化处理过程,能够引导数据从一个或者多个源系统到达目标系统。在这一过程当中存在一系列必要的转换处理。
映像包括:

  • 源定义
  • 目标定义
  • 转换定义

在转换过程中就可以添加数据预处理,过滤多余数据项,也可以完成数据转换映射。
个人理解:在此过程中,通过此元数据管理,可以做一部分的规范化处理。例如: 源表和目标表的格式规范化(统一格式:数据库模式名_表名),完成转换后输出的数据集命名规范,转换过程中数据集的分隔符规范等等。

数据映像从数据源到目标
在这里插入图片描述

4 数据仓库三要素

在这里插入图片描述

5 多维总计方阵

是从数据仓库的事实表和有关维表中通过汇总、运算处理产生出来的综合数据,从结构和形式上更接近于最终用户对管理决策支持分析的要求,是为用户提供的具有多维数据查询和分析能力的视图。
在这里插入图片描述
创建方阵是将综合信息带给用户的必经之路,通过预先费时的计算和链接操作而生成的完好方阵系列,而不是在联机执行时间临时处理。方阵的存在大大减少了访问时间和复杂性,也降低了成本。

方阵的类型

  • 多维联机分析处理方阵
  • 虚拟方阵
  • 奠基石式方阵–基础方阵
  • 嵌入式方阵
  • 稀疏方阵
6 方阵和数据集市的区别

数据集市

  1. 数据集市是按照需求定制化建立的,代表的数据价值只局限于需求的边界范围内。
  2. 针对性较强,可能在市场,营销,账务等业务线的数据集市都是不同的。不可重用,没有灵活性。并且容易产生数据孤岛,数据价值表现的很局限。
  3. 数据集市的种类统计粒度可能不同,不利于数据分析

从上面定义可知,数据集市的统计边界更小一点,可能只是针对某个业务线,某个部门。而方阵是基于整个数据仓库,通过整个数据仓库的相关表来进行统计汇总。

第二部分:数据仓库设计与应用开发(原书第五章)

数据仓库层次结构

在这里插入图片描述

数据仓库概念设计

概念模型是建立模型的初始阶段,主要描述与业务有关的重要实体以及相互之间的关系。
该阶段主要是确定系统建模的边界和范围。和行业经验和业务流程息息相关,在建模范围内,确定实体有哪些,梳理实体间的关系
具体方法可以参照5W1H: who、what、when、where、why、how
结果:实体关系图(不需要添加实体的属性)

数据仓库逻辑设计

梳理业务规则,对概念模型做进一步细化
确定实体的详细属性,实体间关系以及是否存在关系约束

数据仓库物理设计

从性能、访问、开发等多个方面考虑,做系统的实现。
该阶段完成:

  1. 类型长度的定义
  2. 字段的其他详细定义: 飞空,默认值
  3. 约束的定义: 主键,外键
发布了10 篇原创文章 · 获赞 11 · 访问量 1477

猜你喜欢

转载自blog.csdn.net/resin_404/article/details/100073447
今日推荐