简单理解Hadoop和Spark的区别

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/mochou111/article/details/82620368

Hadoop和Spark都是大数据计算平台,他们的区别如下

  1. 存储:Hadoop有自己的一套线下存储集群;Spark没有存储集群,所以Spark需要和一个云计算平台相结合,一般都是和Hadoop相结合
  2. 计算性能:Hadoop基于MapReduce来运行计算,MapReduce可以简单理解为:一个人数一堆散牌里有多少个红桃比较慢,但是你把这堆牌分给几个人一起去数,这叫Map,然后把这几个人的结果汇总到一起,这叫Reduce。由于MapReduce需要把Map的结果写到存储集群里,然后Reduce再去读集群处理后的结果再去运算,这样来回读取集群存储比较慢;而Spark计算时是把计算结果写到内存里,然后再实时读取内存,所以运行结果快,一般可以比Hadoop快10-100倍,所以Spark多用于流计算等实时处理中。
  3. 灾备恢复:Hadoop有自己的一套离线存储集群,天生具有灾备恢复能力;Spark的数据对象存储分布于数据集群中的叫做弹性分布式数据集(即RDD),故也有灾备恢复能力。

猜你喜欢

转载自blog.csdn.net/mochou111/article/details/82620368