mesa介绍:google 近实时数据仓库系统

Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作

Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求,包括近实时数据提取和查询,同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数百万行更新,每天进行数十亿查询抓取数万亿行数据。Mesa能进行跨数据中心复制,即使在整个数据中心故障时,也能以低延迟返回一致和可重复的查询结果。

针对数分钟更新吞吐量、跨数据中心等等严苛需求,已有的商业数据仓库系统(处理周期往往以天和周来计算)和Google的解决方案包括BigTableMegastoreSpannerF1都无法满足要求。BigTable无法提供必要的原子性,MegastoreSpannerF1无法满足峰值更新需求。此外,Google自己开发的TenzingDremel,以及Twitter开发的ScribeLinkedInAvataraFacebookHive以及HadoopDBWeb规模数据仓库处理的都是批量负载。

Mesa的主要特点是:

1、近实时的更新吞吐量。支持持续的更新,每秒支持数百万行的更新。

2、同时支持低时延查询性能和批量大量查询。99%的查询在几百毫秒之内返回。

3、跨数据中心备份。

今天先简单介绍下mesa的特点,具体的技术细节,后面再分享。大家可以到网上下载google的论文《Mesa:Geo-Replicated, NearReal-Time, ScalableData Warehousing》阅读以下。



 

猜你喜欢

转载自jiezhu2007.iteye.com/blog/2153592