数据仓库-什么是数据仓库

数据仓库的基本概念

数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看做数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。

1.什么是数据仓库

数据仓库的建立为工商企业主管提供了体系结构和工具,以便他们系统地组织、理解和使用数据进行决策。
宽泛的讲,数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

数据仓库的关键特征:

面向主题的(subject-oriented):数据仓库围绕一些重要主体,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。
时变的(time-variant):数据存储从历史的角度提供信息。数据仓库中的关键结果都隐式或显式地包含时间元素。
非易失的(nonvolatile):数据仓库总是物理的分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。

概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需要的信息。数据仓库也常常被看做是一种体系结构,通过将异构数据源中的数据集成在一起而构建,支持结构化和专门的查询、分析报告和决策制定。
数据仓库(data warehouse)的构建需要数据集成、数据清理和数据统一。数据仓库的应用常常需要一些决策支持技术。
“单位如何使用数据仓库中的信息?“许多单位都是用这些信息支持商务决策活动,包括
(1) 提高顾客关注度,这包括分析顾客购买模式(喜欢买什么、购买时间、预算周期、消费习惯)
(2) 根据按季度、按年和按地区的营销情况比较,重新配置产品和管理产品的投资,调整生产策略
(3) 分析运作情况并找出利润源
(4) 管理客户联系,进行环境调整,管理公司的资产开销。
对于异构数据库的集成,传统数据库做法是:在多个异构数据库上,建立一个包装程序和一个集成程序(或中介程序)。当客户站点提交查询时,首先使用元数据字典对查询进行转换,将它转换成相应异构站点上的查询。然后,将这些查询映射并发送到局部查询处理器。由不同站点返回的结果被集成为全局回答。这种查询驱动的(query-driven)方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源。这种方法是低效的,并且对于频繁的查询,特别是需要聚集操作的查询,开销会很大。
对于异构数据库集成的传统方法,数据仓库提供了一种有趣的替代方案。数据仓库使用更新驱动的(update-driven)方法,而不是查询驱动的方法。这种方法将来自多个异构源的信息预先集成,并存储在数据仓库中,供直接查询和分析。与联机事务处理数据库不同,数据仓库不包含最近的信息。然而,数据仓库为集成的易购数据库系统带来了高性能,因为数据被复制、预处理、集成、注释、汇总,并重新组织到一个语义一致的数据存储中。数据仓库的查询处理并不影响在局部数据源上进行的处理。此外,数据仓库可以存储并集成历史信息,支持复杂的多维查询。

猜你喜欢

转载自www.cnblogs.com/EnzoDin/p/10822686.html