大数据之路、阿里巴巴大数据实践读书笔记 --- 第八章、大数据领域建模综述

一、为什么需要数据建模
数据建模就是数据组织和存储方法,他强调从业务、数据存储和实用角度合理存储数据。
有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处:
  • 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐;
  • 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本;
  • 效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率;
  • 质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性;
 
二、从OLTP和OLAP系统的区别看模型方法论的选择
  • OLTP系统通常面向主要的数据操作是随机读写,主要采用满足3NF的实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题;
  • OLAP系统面向的主要数据操作是批量读写,事务处理中的一致性不是OLAP所关注的,其主要关注数据的整合,以及在一次性的复杂大数据查询和处理中的性能;
  • 因此需要采用一些不同的建模方法;
 
三、典型的数据仓库建模方法论
  • ER模型
    • 数据仓库Bill Inmon提出的建模方法是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationshop, ER)模型描述企业业务,在范式理论上符合3NF。
    • 数据仓库中的3NF与OLTP系统中的3NF的区别在于,他是站在企业角度面向主题的抽象,而不是针对某个具体的业务流程实体对象关系的抽象。
    • 特点:

猜你喜欢

转载自blog.csdn.net/u012965373/article/details/105249549