考点分析

◆在考试中一般情况下会出现在选择题,填空题部分。
◆常考知识点有:
1.了解决策支持系统的发展及演化
2.掌握数据仓库的概念与特性及元数据内容
3.熟悉数据仓库设计需求、数据模型和设计步骤
4.熟悉数据仓库的运行及维护
5.熟悉多维分析概念和基本操作、理解OLAP的实现方法
6.熟悉数据挖掘的相关技术

14.1 决策支持系统的发展

一、早期
操作型数据(Operational Data)是指由企业的基本业务系统所产生的数据,操作型数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境。一般被称为联机事务处理(OLTP)环境. OLTP环境中的企业各种基本业务应用系统称为操作型系统。为了利用OLTP环境所生成的数据,早期的决策支持系统(DSS)一般直接建立在事务处理环境中。
二、发展
决策支持系统DSS星综合利用大量数据,有机组合众多模型(数学模型和数据处理模型),通过人机交互。辅助各级决策者实现科学决策的系统。DSS是协助而不是取代管理者进行决策,一般来说 .使用DSS的目的是为了增加决策的有效性.而不是为了提高做出决策的效率。
三、结果
在整个企业或机构的数据有可能会形成错字复杂的网状结构。最后整个企业或机构的数据有可能会形成一种蜘蛛网式的结构。但在蜘蛛网结构中。有可能因为抽取的多层性，数据和算法的不同使得数据在整个企业范围内缺乏可信性。

1.数据仓库的决策支持系统提出目的是为了解决在“蜘蛛网结构”中存在的一系列问题。
2.数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数振源。企业内部的操作型系统和一些外部数据源构成了数据仓库的数据源。这种体系结构如下图所示:
以数据仓库为核心的体系结构
3.数据仓库结构
在数据仓库体系结构中，数据仓库是核心，操作型系统是基本数据源，决策支持系统是数据的需求者。
其中主要存在下面2类数据：
（1）原始数据（操作型）
原始数据一般来自于企业操作型系统。
（2）导出数据（分析型数据）
导出数据是为了提高数据查询和管理效率，根据操作型数据到算得到的数据，常用于支持分析型应用。

14.2 数据仓库技术概述

一、数据仓库的概念
1.建立数据仓库的主要目的：根据决策需求对企业的数据采取适当的手段进行集成，形成一个综合的、面向分析的数据环境，用于支持企业的信息型、决策型的分析应用。对于什么是数据仓库，人们提出了许多不同的概念。
2.概念：数据仓库是一个面向主题的、集成的、非易失的，且随时间变化的数据集合，用于支持管理人员的决策。
3.数据仓库的几个重要特性：面向主题性、集成性、不可更替性、时间特性。
（1）面向主题性
在传统的OLTP环境下,数据库系统的数据一般是以面向企业基本业务应用的方式进行组织的。在数据仓
库中数据是以面向主题的方式进行组织的,主题是一个抽象的概念.主题也可以称为分析主题或分析领
域，用于表达某一宏观的分析领域所涉及的对象,以及与对象有关的数据集合。
数据仓库主题数据的实现一般还是采用关系型数据库技术,即主题的对象以及对象所相关的数据是通过
一组关系表来实现。
在面向分析主题的数据组织方式中,需要先确定利统中所涉及的主题。
（2）集成性
集成是数据仓库的第二个特性.也是最为重要的特性。在数据进入数据仓库时，要采用各种集成方法来消除
应用层的许多不一致性。
数据仓库的数据集成功能分成数据抽取、转换、清理(过滤)和装载4项任务。
数据集成主要完成从数据源获取数据,并按目标数据模型要求操作，装载入目标数据体系中。如数据仓库
核心层模型的要求对数据进行转换,并清除错误或无效数据。
未来教份三级数据库技术
（3）不可更新性
在操作型环境下,数据访问和处理一般以单条方式进行的,数据一般是会被更改或更新的。
在数据仓库中,数据通常是以批量方式载入与访问的,并不进行一般意义上的更新。
不可更新并不意味着不再向数据仓库追加新的数据,只是表示一般不再对进入数据仓库的原始数据进行
修改。
（4）时间特性
数据仓库的时变性是指数据仓库中的每个数据单元都有时间标志，记录一般都加有时戳。有时记录中可能
包含有事务的发生时间。
数据仓库随时间变化的特性还指数据仓库在运行中心必须不断捕捉操作型环境中数据，并将新的数据集成后
追加到其中。

二、数据仓库的体系结构与环境
1.从数据层次角度看，典型的数据仓库的数据体系结构包括的内容如图所示。

2.从功能结构上看数据仓库的数据体系功能包括的内容如图所示。
数据仓库体系

三、数据仓库的数据组织
1.数据组织结构
来自操作型环境中的源数据经过集成后进入当前细节级。根据系统需要,可能需要对当前细节级的数据进行轻度的综合(汇总)或进一步的高度综合,得到轻度综合级数据和高度综合级数据。老化以后的细节数据将进入早期细节级。数据仓库的数据组织结构如图所示:

2.粒度
概念:系统中存在不同综合级别的数据, 一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小，表示综合程度越低。
粒度的比拟
在数据仓库环境中,粒度的设计会影响到数据仓库的数据量以及系统能回答的查询的类型(粒度越小,细节程度越高，能回答的查询就越多)。
存在的两个问题：
●在数据仓库环境中,需要存储低粒度级的细节数据,数据量就比较大,空间代价也大。
●如果数据仓库不保存低粒度级数据,只有粗粒度级的数据，则需要存储的数据量较少。但这样就无法回答一些细节问题，查询代价就大。

一般，在进行数据仓库的数据组织时,需要根据当前应用的需求来进行多粒度级设计,针对某一主题,在可用的存储空间中保存粗细程度不同的主题数据,以尽可能满足各种应用的多角度、多层次数据查询要求，同时在总体上提高查询的计算效率。
3.数据分区
在数据仓库中,数据分区可以解决用一个物理表来存储模式相同的数据而造成数据管理和查询效率低下。
恰当的数据分区能有效提高数据仓库各种数据处理功能的效率，合适的分区能使数据的增长和管理都容易实现。
分区的选择一般是由开发者来决定的,最常见的是按照时间标准来划分,也可以按照其他的标准进行划分,或者多个分区标准组合起来对数据进行分割。
数据分区的方式如下所示，两者之间存在一定的区别:
(1)系统层分区
系统层分区是数据库系统提供的机制，各个分区在逻辑上是一个表，在物理上属于不同的分区。数据库管理系統知道各分区间的逻辑关系，也就是说数据库管理系统管理逻辑上的表和物理上的分区之间的关系。
(2)应用层分区
应用层分区由应用代码实现。不同的分区在逻辑上和物理上都属于不同的表，如何分区由开发者和程序员控制。数据库管理系统并不知道分区间存在什么逻辑关系。

四、元数据
1.元数据(Meta Data)是数据仓库中的重要数据,是关于数据的数据,或者叫作描述数据的数据。
2.元数据描述了数据的结构、内容、链和索引等项内容。
(1)在传统的数据库中,元数据描述了数据库中的各个对象,如数据库中的数据字典就是一种元数据。
(2)在关系数据库中,元数据描述对数据库、表、列等其他对象的定义。
(3)在数据仓库中,元数据定义了数据仓库中许多对象 —表、列、查询、商业规则及数据仓库内部的数据转移等。
3.在数据仓库中建立元数据的目的主要在于让用户能更快地找到所需的数据,让前台工具和理员更好地理解和管理数据。
4.元数据的类型
元数据类型
5.元数据的作用
(1)在数据仓库中建立元数据的目的主要在于让用户能更快地找到所需的数据 ,让前台工具和理员更好地理解和管理数据。
(2)从元数据的类型和作用来看，元数据实际上要解决何人在何地为了什么原因及如何使用数据仓库的问题。
(3)元数据在数据仓库管理员眼中是数据仓库中的包含了所有内容和过程的完整知识库和文档,而在最终用户(数据分析人员)眼中，元数据是数据仓库的信息地图。
五、操作性数据存储
1.在作为数据源的操作型系统与数据仓库之间存在一个"操作性数据存储(ODS)"的数据层。
2.提出这个数据存储层的最初目的是支持一些特殊的应用功能,主要包括即时OLAP和全局型OLTP应用。
3.保存在ODS中数据的基本特点：面向主题的、数据是当前的或接近当前的、集成的、可变的。
4.ODS的分类

14.3 设计与建造数据仓库

一、数据仓库设计的需求与方法
1.数据仓库设计需求
数据仓库的设计
(1)数据体系设计
指数据仓库决策支持应用程序的集合，为企业提供决策支持
(2)应用体系设计
最终将反映为对数据的需求，构成数据体系的建设需求
(3)用户的需求
体现为对企业基本数据模型的建立和基于企业的基本数据模型的不断变化的数据需求，会影响主题划分和主题的建立顺序。
2.设计方法

(1)数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境，建立企业的信息资源体系结构的数据核心.并在此基础上，建立基本的决策支持分析应用。
(2)数据仓库的数据组织是面向主题的,按照一定的主题域分别设计,而不是面向报表的,要对各个报表进行统计分析归类,划分为不同的主题进行建模。
(3)设计方法
A.CLDS ( SDLC的逆序)方法
针对需求变化比较大的数据仓库应用系统建立过程
B.OLAP产品中多维分析功能
通过动志的数据综合引擎来提高数据仓库的数据体系对动态变化的需求的响应
(4)只要当数据仓库中当前主题集无法满足新的数据需求时,才有必要重新建立新的主题未满足新的数据需求。

二、数据仓库的数据模型
1.数据仓库的数据模型与普通数据库系统的数据模型一样, 一般划分为概念、逻辑和物理这3级数据模型,但是这两种3级数据模型之间有如下区别:
01.数据仓库中的数据模型一般不包含纯操作型数据。
02.数据仓库中的教据模型一般需要扩充关键字洁构,在其中加入时间属性。
03.数据仓库中的数据模型中常常需要增加导出数据。
2.概念模型
概念模型是用于描述客观世界中的对象及其属性的一种概念性工具。数据仓库中的概念模型常见的表示方法还是实体关系園，即ER图，用于描述实体以及实体之间的联系。
3.逻辑模型
数据仓库的逻辑模型可以采用关系型模型,也可以采用多维数据模型,也可以通过关系型模型来表示多维模型。
在常见的数据仓库系统中，多数还是采用关系模型作力关系逻辑描述工具。
4.物理模型
物理模型就是逻辑模型在具体的数据存储平台上的物理定义,也就是逻辑模型在数据仓库中的实现。主要包括:物理存取方式、数据存储结构、数据存放位置、存储分配
在建立物理模型时需要考虑的因素主要有各种操作的存取时间和数据仓库存储空间利用率和数据仓库主题维护代价。
常见的用来优化物理模型的设计技术包括引入冗余措施、分区、生成导出数据、表合井、细分数据和索引等。
三、数据仓库设计步骤

1.数据集成
数据集成在数据仓库设计中是必不可少的一环。数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。一个简单的数据集成过程如下图所示：

ETL是实现故据集成的主要技术,即填充更新数据仓库的数据抽取、转换、装载的数据采集过程。对于复杂的数据抽取转换载入过程，一般使用工具协助ETL开发,并运用内建的元数据机制来储存源自于目的的映射和转换函数。
越大量的资料、越复杂的转换逻辑越倾向于使用ETL,

14.4 数据仓库的运行与维护

一、数据仓库的运行和维护内容
1.数据仓库维护的基本思想是:根据某种维护策略, 在一定条件下触发维护操作;维护操作捕捉到数据源中的数据变化;通过一定策略对数据仓库中的数据进行相应的更新操作,以保持两者的一致性。
2.数据仓库环境建立以后,需要对数据仓库进行日常管理工作,主要包括:
01.操作型数据环境中新生成的数据的集成、载入、刷新数据仓库中的细节数据。
02.导出数据(物化视图)、将过时的数据转移到磁带等存储设备上。
03.清除不再使用的数据，对元数据进行管理等。

二、数据仓库数据的更新维护
1.数据仓库中的数据维护策略分为3种:实时维护、延时维护和快照维护。
(1)实时维护：实时维护在数据源发生变化时,立即更新数据仓库中数据。实时维护操作的触发条件是数据系进行了数据的更新操作。这种策略能够保证用户总查到最新的数据。
(2)延时维护:延时维护工作并不是在数据源的更新事务中完成,而是在数据库中的视图被查询时完成更新。延时维护操作的触发条件是用户在数据源发生变化后首次对数据仓库执行查询操作。
(3)快照维护:快照维护策略定期对数据仓库进行维护.维护操作的触发条件是时间。这种策略不会给源数据的更新事务或者数据仓库的查询事务增加任何负担。但通常无法提供最新的数据。
2.捕捉数据源的变化
●对数据仓库中的相关数据进行更新需要通过某种机制来告知数据仓库源数据发生了变化。
●通过对源数据变化的监听和捕获来告知告知数据仓库哪些源数据发生了变化,典型的方法有:
触发器、修改数据源应用程序、通过日志文件、快照比较法
3.导出数据的刷新
●对数据仓库中导出数据的维护方法有两种: 一是根据维护对象的数据源对其进行重新计算。二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护。
●数据仓库的数据更新维护操作通常放在夜间完成,维护过程必须在第二天清晨完成(因为该操作需要执行大量的表数据更新操作,在此过程中用户无法获取数据仓库中的数据)
●用户不可存取数据仓库时间的长短是街量数据维护效率的重要指标。一个有效的方法是将维护过程分为“聚集”和“更新”两部分。
聚集：聚集操作预先生成一部分更新用的聚集数据。存放在附加表中.不涉及对数据修改,这样用户仍能存取导出数据表。
更新：更新操作具体执行维护对象的更新，用户不可存取数据仓库时间缩短为“更断”操作所消耗的时间。

三、数据仓库监控与元数据管理
(1)对数据仓库的数据量进行监控的原因:因数据仓库的存储容量是有限,数据仓库中的数据量可能会由于不断增长而超过存储限量。
(2)根据监控情况对数据仓库的存储和设计进行必要的调整,例如增加一些设备,减少一些视图，导出一些数据等措施。
(3)对数据库管理员来说:需要对数据仓各种数据的使用率进行监控,以了解不同数据的用户和使用情况, 并根据监控的情况对设计进行调整。
(4)同时,对数据仓库环境的网络通信情况、网络数据流量、数据源数据变化情况、集成和维护工具运行效率、查询响应时间、应用支持效率等各种工具、对象的状态、参数等,都需要进行必要的监控,以维持数据仓库的有效运行。
(5)元数据管理
A.技术元数据:描述数据仓库结构,存储关于数据仓库系统技术细节的数据,如数据仓库监控的过程代码和结果。
B.业务元数据:提供企业概念模型和多维数据模型,表示出了数据的业务视图。
在数据仓库中必须建立元数据管理机制，以合理的管理数据仓库中的数据。
在实践中，一般采用元数据库来存储和管理元数据。在设计、安装、使用、操作和管理数据仓库的工具和处理过程中,共享元数据库中的数据。
元数据记录企业详细信息,保存数据存储位置，生成维护数据之间的关系以及数据的转换过程,保证了数据仓库数据的一致性和准确性,支持强大的查询和报表生成工具,为企业进行数据质量管理提供数据依据和决策支持信息。

14.5 联机分析处理与多维数据模型

一、OLAP简介
OLAP主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可以针对分析人员的要求,快速灵活地进行大数据量的复杂查询处理,并以直观易懂的形式将查询结果提供给决策人员,使他们准确掌握企业的经营状况，了解市场需求,制定正确方案,提高效益。
05
考点5 :联机分析处理与多维数据模型
二、多维分析的基本概念
1.描述:数据的多维分析是指针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次,采用各种数据分析技术,对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据。
2.一般用多维视图的概念来描述多维分析系统中用户所到的数据。多维模型的数据视图或数据集为多维空间中的点集，这样的数据视图被称为多维视图，
3.多维视图中的属性分为维属性和度量属性, 一个多维视图MDV的模式,前面n个维属性构成一个多维空间。后面m个度量属性是多维空间中的指标集。
三、多维分析的基本操作
1.钻取与卷起:钻取与卷起是0LAP分析的两个最基本操作,为OLAP用户提供了足够灵活、多角度的观察数据的方法。
2.旋转:旋转是改变一个报告或页面显示的维方向,通过旋转可以得到不同视角的数据。最简单的旋转就是数据交叉。i
3.切片和切块:在多维数据结构中，切片和切块实现局部数据的显示，帮助用户从众多混杂的数据中进行选择。
注意:这些活动是多维分析工具应该具有的最为基本的多维空间切换活动和单个空间内数据选择和角度变换活动,并不包括在数据之上其他分析功能。
四、OLAP的实现方法
1.基于多维数据库的OLAP (MOLAP)
MOLAP是OLAP的核心。它以多维数据库的形式将元数据、基础事实数据和导出数据存储在以多维数组为基本存储结构的多维数据库中。多维数据库目前最大的问题是缺乏标准，多维存储数据库的扩展性能差，所能存储的数据规模有限，也难以实现数据维护。
2.基于关系数据库的OLAP(ROLAP)
ROLAP称为基于关系数据库的OLAP。所有基础事实数据及维表都采用关系表来表示和存储。在使用ROLAP技术时，将多维数据库中的多维结构划分为两类:一类是基础事实表，用来存储事实度量值及各维的码值:一类是维表，对于每个维来说，至少有一个表用来保存该维的描述信息.包括维的层次及成员列表等。
3.混合型的OLAP( HOLAP )
混合型的OLAP是将基于多维数据库的OLAP和基于关系型的OLAP结合起来，汲取它们各自的优势。

14.6 数据挖掘技术

一、数据挖掘步骤
1.数据挖掘作为知识发现的过程，一般由3个主要阶段组成:数据准备、数据挖掘、结果的解释评估。知识的发现可以描述为这3个阶段的反复过程,如下图所示。

2.数据准备
数据准备过程可以针对数据仓库也可以是普通数据文件,数据准备分为3个子步骤:
01.数据选取
目的是确定挖掘任务的操作对象,根据用户的需求从原始数据库中抽取一组数据。
02.数据预处理
一般包括消除噪声‘’推导计算缺值数据、消除重复记录、完成数据类型转换等。当数据挖掘的对象是数据仓库时，一般数据预处理已经在生成数据仓库时完成了。
03.数据变换
目的是将数据转换成适合数据挖掘需要的形式。如将文档信息特换成数值向量形式。
3.数据挖掘
数据挖掘的过程：

注意：数据挖掘算法是KDD的核心，也是目前研究人员主要努力的方向，但要获得好的挖掘效果，必须对各种挖掘算法的要求或前提设有充分的理解。
4.结果解释评估
●数据挖掘可以分成两大类任务:分类预测任务和描述型任务。
●分类预测任务:从已经分类的数据中学习模型，并使用学习出来的模型去解决新的未分类的数据。
分类预测任务需要用到的数据
训练集:用于练学习算法和建立
测试集:用于验证所生成的模型是否正确
验证集:为实际应用中的数据。不具有类标签
●常见的分类预测型方法有决策树、神经网络、规则归纳、支持向量机。贝叶斯、粗糙集、回归分析、K-最近邻等。
●描述型任务:根据数据内部具有的固有联系,生成对数据集中的数据关系或整个数据集的概要描述。典型的描述型任务包括摘要、聚类和依赖分析等.

二、关联规则挖掘
1.关联规则主要是用于发现数据库中数据间没有关系的实体组合在起可以产生很好的效果。如超市中“啤酒”和“尿布”。这两个看上去没有关系的商品摆放在一起进行销售并获得很好的销售收益,这种现象就是卖场中商品之间的关联性。
关联规则主要对象是事务型数据库,其中针对的应用则是售货数据，也称为货篮数据。
关联规则成立的两个条件
2.关联规则的阈值
关联规则需要考虑支持度和可信度,需要给定两个阈值:最小支持度和最小可信度。
●最小支持度:用户规定的关联规则必须满足的, 表示了一组物品集在统计意义上需要满足的最低程序;
●最小可信度:用户规定的关联规则必须满足的,反映了关联规则的最低可靠程度。
●同时满足最小可信度阈值和最小支持度阈值的关联规则称为强关联规则。
三、分类挖掘
分类在数据挖掘中是一项非常重要的任务，是目前在商业中应用最多的一种数据挖掘方法。分类步骤如下；

四、聚类挖掘
1.聚类将一个数据集中的数据进行分组,使得每一组内的数据尽可能的相似而不同组间的数据尽可能的不同。
2.聚类方法包括统计方法、机器学习方法、神经网络方法、面向数据库的方法等。
3.在统计方法中,聚类称为聚类分析,它是多元数据分析的三大方法之一。在数据仓库中,使用数据挖掘的聚类算法进行分析，得出聚类结果,可以让管理者更加有效的决策。
4.在机器学习中,聚类称为无监督(或无教师)归纳,聚类算法所处理的数据对象一般都没有标记。
五、时间序列分析
1.时间序列分析也可以称为数据演变分析,它能描述行为随时间变化的对象的规律或趋势,并对其进行建模。
2.对于时间序列的数据类型,时间序列从不同的角度可以分为:
●一元时间序列和多元时间序列;
●等间隔时间序列和不等间隔时间序列;
●平稳时间序列和非平稳时间序列。

全国计算机等级考试三级数据库技术（十四）