通俗理解数据仓库的四大特点

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库主要有四大特点,分别是(网上解释摘抄)

1.面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。

公安局的数据:
姓名:张三,性别:男,身份证号:35012219900101XXXX
医院的数据:
姓名:张三,性别:男,年龄:30,就医次数:10
学校的数据:
姓名:张三,专业:网络工程

这都是各个企业或领域保存着他们独有的可需要的数据。将这些数据全放到数据仓库中就不是一个个分散的数据了,这些数据将进行整合,对各个对象有个完整、统一的描述。在数据仓库中可以查询到该对象所有属性描述,如既可以查到公安局的也可以查到医院的。

2.集成

数据仓库中存储的数据大部分来源于传统的数据库,并且需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合,消除源数据中的不一致性。

这个很好理解吧,原始数据杂乱,例如数据结构的不统一,都需要经过集成才能转成面向主题的统一的数据集合。

3.不可变更

数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

在数据仓库中数据不可被修改。例如一个人的身份证号在仓库中永久保存,不可变更。

4.汇总(动态性)

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。意思就是历史数据都是累加的,不断变多。

比如一个人的所有动车出行记录,出行一次记录一次出发地、目的地和出行时间,所有记录条数都是累加的。在数据仓库中可以查到第一次出行记录,也可以查到最后一次出行记录。不做删除覆盖等操作,只添加。

扫描二维码关注公众号,回复: 11497046 查看本文章

猜你喜欢

转载自blog.csdn.net/weixin_43173093/article/details/107311133
今日推荐