大数据框架Hadoop生态圈第四集

1.4 Hadoop发行版本

虽然Hadoop是开源的Apache(和现在GitHub)项目,但是在Hadoop行业,仍然出现了大量的新兴公司,以帮助人们更方便地使用Hadoop为目标。这些企业大多将Hadoop发行版进行打包、改进,以确保所有的软件一起工作,并提供技术支持。现在,Apache自己也在开发更多的工具来简化Hadoop的使用,并扩展其功能。这些工具是专有的,并有所差异。有的工具成为了Apache Hadoop家族中新项目的基础。其中,有些是经过Apache2许可的开源GitHub项目。尽管所有这些公司都基于Apache Hadoop发行版,但是他们都与Hadoop的愿景有了细微的不同——应该选取哪个方向,怎样完成它。

这些公司之间最大的区别是:Apache源代码的使用。除了MapR公司之外,都认为Hadoop应该由Apache项目的代码定义。相反,MapR认为Apache的代码只是实施参考,可以基于Apache提供的API来实现自己的需求。这种方法使得MapR做出了很大的创新,特别是在HDFS和HBase方面,MapR让这两个基本Hadoop的存储机制更加可靠、更加高性能。MapR还推出了高速网络文件系统(NFS),可以访问HDFS,从而大大简化了一些企业级应用的集成。

有两个关注度较高的Hadoop发行版,分别由亚马逊和微软发布。两者都提供Hadoop的预安装版本,运行于相应的云服务平台(Amazon or Azure),提供PaaS服务。它们都提供了扩展服务,允许开发人员不仅能够利用Hadoop的本地HDFS,也可以通过HDFS映射利用微软和雅虎的数据存储机制(Amazon的S3,和Azure的Windows Azure存储机制)。亚马逊还提供了,在S3上面保存和恢复HBase内容的功能。

表1-1展示了主要的Hadoop发行版的主要特点。

表1: 不同的Hadoop供应商

当然,大量的发行版让你疑惑“我应该使用哪个发行版?”当公司/部门决定采用一个具体的版本时,应该考虑以下几点:

技术细节——包括Hadoop的版本、组件、专有功能部件等等。

易于部署——使用工具箱来实现管理的部署、版本升级、打补丁等等。

易于维护——主要包括集群管理、多中心的支持、灾难恢复支持等等。

成本——包括针发行版的实施成本、计费模式和许可证。

企业集成的支持——Hadoop应用程序与企业中其他部分的集成。

版本的选择依赖于,你打算利用Hadoop来解决哪些问题。本书中的讨论与版本无关,因为笔者看中的是每个发行版提供的价值。

强力推荐阅读文章

年薪40+W的大数据开发【教程】,都在这儿!

大数据零基础快速入门教程

Java基础教程

web前端开发基础教程

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

猜你喜欢

转载自blog.csdn.net/chengxvsyu/article/details/92430886