也谈数据仓库的存储

数据仓库一般侧重于OLAP型操作,区别于OLTP的"于乱军中取敌上将首级"的低延迟要求,OLAP更要求大数据的处理速度.因为OLTP侧重于对单个数据的处理,比如快速找到某条订单,而OLAP侧重于整体数据的把握,比如订单销量的地区分布.

Infobright是mysql的数据仓库解决方案,而hive是基于Hadoop的数据仓库平台,要探索数据仓库的时候,发现两者在存储上有很多共同之处,比如按列存储,数据块粗粒度索引.

按列存储,有利于减少硬盘IO.因为OLAP的操作,往往只涉及到部分的列.而且同一列的数据类型一致,可以有效的压缩..





数据块粗粒度索引,则更容易的判断整个数据块是否命中.




详细内容可以参阅
http://download.csdn.net/detail/kabike/8069505
http://download.csdn.net/detail/kabike/8069509

猜你喜欢

转载自kabike.iteye.com/blog/2146667
今日推荐