分布式计算框架与分布式文件系统

分布式计算框架与分布式文件系统是两个概念。分布式计算框架是用于处理大数据的一种模型，而分布式文件系统可以用于大数据的存储。

一、分布式计算框架

对于如何处理大数据，计算机科学界有两大方向：一是集中式计算，二是分布式计算。

过去，分布式计算理论比较复杂，技术实现比较困难，因此集中式计算一直是主流解决方案。但2003年到2004年间，Google发表了MapReduce、GFS（Google File System）和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架，GFS（Google File System）是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。Google的分布式计算模型相比于传统的分布式计算模型有三大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。最后，它被Google应用在Google的计算中心，取得了很好的效果，有了实际应用的证明。

后来，各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统，Google的这三篇论文也就成为了大数据时代的技术核心。

目前三大分布式计算框架：
1）Hadoop
2）Spark
3）Storm

以上三种框架的分别，可以见拙作：《大数据基础》

二、分布式文件系统

顾名思义，分布式文件系统就是文件系统咯，一个个文件。当然它是分布式的，读取机制，写入机制，同步机制，都有讲究。有些处理大数据的数据库，如HBase，就存放于分布式文件系统HDFS之上。采用不同的分布式文件系统决定了分布式数据存储系统的运行效率、可伸缩性、容错能力及安全性等。

目前，google的GFS和Hadoop的HDFS是最流行的两种分布式文件系统。当然，HDFS也是根据google的那三篇论文上的原理搞出来的。

左直拳博客专家

发布了1110 篇原创文章 · 获赞 337 · 访问量 339万+

他的留言板关注