数据仓库的基础概念

0、数据仓库的定义

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。
面向主题：数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将被排除掉。
集成的：数据仓库中的数据是对源业务系统数据的抽取、清理的基础上经过系统加工、汇总和整理得到的。必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业一致的全局信息。
随时间变化：数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测
相对稳定：数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

1、OLAP的概念与分类

即从数据仓库中抽取详细数据的一个子集并经过必要的聚集,存储到OLAP存储器中供前端分析工具读取。
ROLAP将分析要用的多维数据存储在关系数据库中,并根据应用的需要有选择的定义一批实视图也存储在关系数据库中
MOLAP将OLAP分析所要用到的多维数据物理上存储为多维数组的形式，形成“立方体”的结构。

2、数据建模过程

1). 进行需求、数据、技术三者的平衡选型
2). 抽象业务形成逻辑模型：总线矩阵，划分主题
3). 制定规范：开发规范、流程规范、命名规范

3、基本原则

a. 高内聚和低耦合
一个逻辑或者物理模型由哪些记录和字段组成，应该遵循最基本的软件设计方法论的高内聚和低耦合原则。
主要从数据业务特征和访问特性两个角度来考虑：
将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型；
将高概率同时访问的数据放一起，将低概率同时访问的数据分开存储。
b. 核心模型与扩展模型分离
建立核心模型与扩展模型体系，核心模型包括的字段支持常用的核心业务，扩展模型包括的字段支持个性化或少量应用的需要，不能让扩展模型的字段过度侵入核心模型，以免破坏核心模型的架构简洁性与可维护性。
c. 公共处理逻辑下沉及单一
越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现，不要让公用的处理逻辑暴露给应用层实现，不要让公共逻辑多处同时存在。
d. 成本与性能平衡
适当的数据冗余可换取查询和刷新性能，不宜过度冗余与数据复制。
e. 数据可回滚
处理逻辑不变，在不同时间多次运行数据结果确定不变。
f. 一致性
具有相同含义的字段在不同表中的命名必须相同，必须使用规范定义中的名称。
g. 命名清晰、可理解
表命名需清晰、一致，表名需易于使用人员理解和使用。