人们采用数据抽取程序从OLTP系统中抽取出数据的主要原因是:
- 抽取程序方面的性能方面的冲突问题,也使用户可以控制数据
- 为了解决性能和历史数据的问题,即在不影响联机事务处理系统的前提下,实现一些较为复杂的DSS系统或MIS系统的分析应用,人们开始从OLTP系统中抽取数据,再对抽取出的数据进行处理和分析。
- 抽取程序从文件或数据库中查找有用的信息,然后再将数据传送到其他文件或数据库中去,供用户分析处理
数据仓库
特性
数据仓库具有面向主题、集成、不可更新、时间特性四个重要特性
建立数据仓库的恰当理由
- 充分利用企业信息系统生成的数据
- 解决数据分析应用和企业基本业务应用之间的性能冲突问题
- 以面向主题、集成的方式合理组织数据,实现跨专业视图
数据仓库的数据组织
粒度
- 一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低;
- 粒度影响数据仓库的数据量以及系统能回答得查询类型。显然,粒度越小,细节程度越高,能回答的查询就越多。但是,因为需要存储低粒度级的细节数据,数据量就比较大,空间代价也大
操作型数据存储
- 设立ODS这个数据存储层的最初目的是支持一些特殊的应用功能,主要包括即时(up-to-second)OLAP和全局型OLTP应用
ODS分类
- ODSⅠ:第一类ODS数据更新频率是秒级的;
- ODSⅡ:第二类ODS数据更新频率是小时级的;
- ODSⅢ:第三类ODS数据跟新频率是天级的;
- ODSⅣ:第四类ODS是根据数据来源方向和类型区分的;其中数据不仅包含来自操作型环境的数据,也包含由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果或一些报表信息。
数据库维护策略
维护策略
- 数据库的维护策略分为三种:实时维护、延时维护和快照维护
OLAP的实现方式
OLAP的是实现方式有三种:基于多维数据库的OLAP(MOLAP)、基于关系数据库的OLAP(ROLAP)、混合型的OLAP(HOLAP)
数据挖掘
-
数据挖掘作为发现只是的过程:一般由三个阶段组成:数据准备、数据挖掘、结果的解释评估
-
数据集成一般包括