读数据仓库有感

        数据仓库:信息型和决策型支持系统处理的核心。

        读这本书是一个月前的事了,从三月份开始断断续续的看,把数据仓库看了两遍,张飞的商业智能看了一遍。商业智能这本书我是忘完了记不住,数据仓库现在依稀记得一些,最近在赶项目,做二期维护和升级,忙里偷闲想一想自己之前对数据仓库的认识和理解。时隔久远,留下的就是精华,是属于自己知识体系的一小部分。

        数据仓库是面向企业的数据库整体工程,服务于企业,存储数据,分析数据,为企业的发展做出自己应有的贡献。存储数据和分析数据这一推一拉,结合企业高度抽象的主题来做相应的应用产品,帮助企业掌握自身的运营状况,合理安排相应事宜,把握企业未来的发展动向。

        从做产品的角度考虑,企业的应用从DSS上层应用到ODS,再到数据集市再到数据仓库,把数据从仓库中拉出来进行分析展示。在上述的整个过程中我们需要建立符合应用的应用表结构结合ODS来把数据从数据集市中抽取出来进行分析,数据集市对某一块的主题应用是最优的符合,但对所有的应用主题并不是最优的。比如数据集市把营销和财务的数据集成出来来分析企业营销部门的盈利情况,这对于应用中要的到的成本信息可能就不是最优解。另外,为避免把应用数据做的太重,会结合ODS来对数据进行操作,建立相应的维表来对应用进行快速的响应。避免直接从数据仓库中操作信息反应过慢等弊端,还可以把数据缓加载到数据仓库。

        从数据库设计的角度来讲数据仓库,设计方法有关系模型和多维模型。这些都是适用于企业数据仓库的设计准则和做法。关系模型我们都知道是若干张表的设计是一对多一对一多对多关系,有一个标准化的设计规范。多维模型的设计中心是星行连接,以事实表为核心多个维表为辅助的连接方式,当然多个事实表通过一个或者多个维表来连接就成了雪花结构。多维模型的设计最大优点在于访问的高效性,当然理清用户的需求搞懂用户真正的请求数据是什么很重要了。由这些用户真正的数据请求来设计确定下来的星行连接就是最理想的结构。关系模型最大的优势在于灵活,可以组合来形成数据源并展示相应多的视图。这样对比下就可知两者的适用场景,关系模型更适用于企业模型(大数据范围),多维模型适用于一个或者多个部门的数据范围。关系模型可以无限制的以最低粒度添加数据,而多维模型可以使一组或者多组数据请求得到最优化。

        本人观点,如有谬误请多指教。

        

猜你喜欢

转载自my.oschina.net/u/3489292/blog/1825535