开源实时大数据分析系统Druid

https://github.com/metamx/druid

http://www.csdn.net/article/2014-10-30/2822381

Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。

2014年10月25日,由eBay、CSDN共同举办的“大数据峰会”在上海举行,Druid创始人Eric Tschetter发表了演讲“Druid之旅,大数据实时分析数据存储框架”,之后Eric接受了CSDN的专访。

很巧,在阿里有一个开源的Java数据库驱动也叫Druid,阿里Druid项目的负责人温少也曾接受过CSDN的采访。
Eric Tschetter本科就读于德克萨斯大学奥斯汀分校,在东京国立情报学研究所拿到了计算机科学的硕士学位。之后在硅谷,Eric加入了Marc Andreessen创办的社交网络平台公司Ning(这个名字取自中文“宁”的拼音);后来Eric又加入了LinkedIn,参与了“People You May Know”产品;离开LinkedIn后,Eric成为了Metamarkets的第一位全职雇员,并在那里开发Druid。目前,Eric为一家非盈利组织Tidepool工作,为糖尿病人提供开源的医疗数字化应用。
Druid是一个开源的分布式实时处理系统,旨在快速处理大规模的数据,并能做到快速查询和分析。为烧钱的大数据处理,提供一种更廉价的选择,目前来说是这个领域唯一的开源产品。Druid还将一些基本功能UI化,为非技术人员提供服务。说到与Druid最类似的项目,Eric认为是Google的PowerDrill。

MapReduce和BigTable的论文催生了大数据处理的事实标准Hadoop。Dremel和PowerDrill问世后,很多人都在好奇有哪些开源大数据技术又要兴起,Druid会是其中之一吗?
应用场景

Druid应用最多的是类似于Metamarkets中的应用场景——广告分析,互联网广告系统监控、度量和网络监控。并且eBay也已经计划将Druid用于生产环境中。

开发团队

目前Druid被托管在GitHub上,有44个contributor,1000+的关注,Druid 的主要贡献者,包括Metamarkets,Netflix、Yahoo和一些硅谷的创业公司。Druid 的开发人员通过Druid 论坛互动和支持Druid 的开发。笔者刚刚查看了Druid的Google Group,最近一直保持着比较活跃的讨论。

Eric介绍说,每当他们学到新的东西或有新的想法,总会尽快去实践检验。所以自2011年3月第一条代码提交至今,Druid有了很大的改进。比如数据的存储方式,大概变化了9次,查询流程大概变化了3-4次,各个节点间的相互协调大概变化了3次,但是每个节点制作一件事情的原则没有变化过。Eric说未来可能还会有更多的变化,但是基本的架构不会改变。

猜你喜欢

转载自coolsunchen.iteye.com/blog/2155007