Hadoop,Spark和Storm三大分布式计算系统简介及比较

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cjDaShuJu_Java/article/details/80020619

Hadoop,Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架并根据GFS开发了HDFS分布式文件系统根据BigTable开发了HBase数据存储系统。

不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。

Spark与Hadoop的区别在什么地方?

Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

扫描二维码关注公众号,回复: 3075285 查看本文章

Storm的架构的最显著的特点是什么?

不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。

Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,各自的优点如下:

Hadoop常用于离线的复杂的大数据处理,

Spark常用于离线的快速的大数据处理,(spark streaming可以实时处理数据)

Storm常用于在线的实时的大数据处理。

猜你喜欢

转载自blog.csdn.net/cjDaShuJu_Java/article/details/80020619