大数据Hadoop这些年的发展回顾：致敬那些浪潮之巅的英雄

在这篇文章里，加米谷大数据沿大数据发展时间线，从产品、行业、技术多角度讨论其发展脉络，究其发展承其脉络大家可以学习、借鉴、并最终推测未来大致走向。

Hadoop：开源大数据的基石

Hadoop 于 2005 年问世。之前，Doug Cutting 和 Mike Cafarella 已经拜读过 Google 的 GFS 论文，并且自己“手工造轮子”实现自己的 Google 分布式文件系统(最初称为 Nutch 分布式文件系统的 NDFS，后来改名为 HDFS 或 Hadoop 分布式文件系统)。在 2004 年时候，Google 发表神作《MapReduce: Simplified Data Processing on Large Clusters》，上述两位正在构架开源搜索引擎的大牛在考虑构建 Nutch webcrawler 的分布式版本正好需要这套分布式理论基础。因此，上述两位社区大牛基于 HDFS 之上添加 MapReduce 计算层。他们称 MapReduce 这一层为 Hadoop，由于 Hadoop 核心原理均是基于上述两篇论文，即 MapReduce 以及 GFS，其本身在技术理论上并无创新，更多是“山寨”实现。对于技术原理感兴趣的看官可自行阅读 Google 原作立刻了解各自原理，而对于 Hadoop 发展历史感兴趣的可以推荐阅读下 Marko Bonaci 的《The history of Hadoop》。

在这里插入图片描述

Hadoop 技术相比于 Google 原作并无新意，甚至在 GFS 系统细节方面折扣实现不少。但笔者在此并无讨论技术差异点的打算，我仍然回到老本行，从产品或者市场角度去探讨 Hadoop 成功因素以及给我们的启示。

在笔者看来，Hadoop 体系能够成功，并在数据处理市场占据一席之地，其初期核心因素就在于以下几点：

时机。彼时互联网 Web 2.0 风头正紧，大量用户与网站交互行为爆炸式增长，如何使用廉价的服务器(大量互联网创业公司就是穷鬼，买不起大小型机)去分析各类网站数据的业务需求已经迫在眉睫。此时，大量 Top 互联网公司有数据、有需求、有硬件，就缺一个廉价的数据分析系统。于是乎，开源、免费的 Hadoop 工具正好钻入此类大数据市场空档，迅速占领了核心种子客户群体，并为后续市场推广奠定了群众基础。

开源。开源在开发者社区感染力不容小觑。Cutting 和 Cafarella 通过开源(以及 HDFS 的源代码)确保 Hadoop 的源代码与世界各地可以共享，最终成为 Apache Hadoop 项目的一部分。Google 此时并未意识到开放论文仅仅自我精神爽了一次：让尔等看看我等技术影响力;实际上并未从长远去思考大数据技术影响力构建以及更加长远的云计算商业生态构建。互联网时代下，大量软件被开发者以及背后的互联网商业公司作为开源系统贡献出来，整个互联网开发者行业已经被开源社区完全洗脑，仿佛开源就是人类灯塔，闭源就是万恶不赦。于是，此时，一个开源的、免费的、感觉挺符合互联网精髓的大数据处理软件出现在各大互联网公司圈中，迅速在互联网大数据处理领域触达了这部分市场群体。

商业。早年开源软件皆靠诸位开源运动人士在业界做社区用户推广，这波人本身毫无金钱汇报全靠一腔精神热血。但本质上来说，人类以及人类社会都是趋利性的，没有利益驱动的市场行为终究无法持续。因此，早期没有找到合适盈利模式的开源软件一直发展缓慢，靠类似 Richard Stallman 类似开源黑客斗士去做市场推广，市场效率之低下。后期，在 Linux 商业公司红帽逐步摸索出开源软件变现模式后，其他开源软件也纷纷仿效。Hadoop 一时间背后迅速成立三家公司，包括 Cloudera、HotonWorks、MapR，这些公司盈利潜力完全都依赖于 Hadoop 开源生态的规模，因此，三家公司都会尽不遗余力地推进 Hadoop 生态发展，反过来促进了 Hadoop 整个生态用户的部署采用率。到大数据市场更后期的时代，其商业竞争更趋激烈。以 Kafka、Spark、Flink 等开源大数据软件为例，在各自软件提交到 Apache 基金会之时创始人立刻创办商业公司，依靠商业推进开源生态建设，同时通过收割生态最终反哺商业营收。

最终 Hadoop 在生态建设上获得了巨大的成功，其影响力在开源业界开创了一个崭新领域：大数据处理可见一斑。我们从如下几个维度来看看 Hadoop 生态成功的各类体现：

Hadoop 的技术生态

不得不承认，Hadoop 有技术基座的先天优势，特别类似 HDFS 的存储系统。后续各大 Hadoop 生态圈中的大数据开源软件都多多少少基于 Hadoop 构建的技术底座。故而，大量大数据生态后起之秀基本均源于 Hadoop，或者利用 Hadoop 作为其基础设施，或者使用 Hadoop 作为上下游工具。此类依存共生关系在整个 Hadoop 社区生态已蔚然成风，越多大数据开源系统加入此生态既收割现有大数据生态客户流量，同时亦添加新功能进入 Hadoop 社区，以吸引更多用户使用 Hadoop 生态体系。就好比淘宝买家卖家相互增长，形成商业互补，相辅相成。

Hadoop 的用户生态

前文已述，优秀的开源(免费)系统确实非常容易吸收用户流量、提升用户基数，这个早已是不争事实。通过开源 (免费) 的系统软件铺开发者市场、培养开发者习惯、筹建开发者社区，早已是开源软件背后商业公司的公开市场打法，这就类似通过免费 APP 培养海量客户技术，最终通过收割头部客户实现营收。或者好比一款游戏，大部分可能均是免费玩家，但用户基数达可观规模之时，一定涌现出不少人民币玩家，并通过他们实现整体营收。当前风头正紧的开源大数据公司，包括 DataBricks(Spark)、Confluent(Kafka)、Ververica(Flink)莫不如此。在开源软件竞争激烈日趋激烈的环境下，其背后若无商业公司资金支撑，其背后若无市场商业团队运营支撑，当年写一个优秀的开源软件就凭”酒香不怕巷子深“的保守概念，现如今早已推不动其软件生态圈发展。试看当前大数据生态圈，那些日暮西山、愈发颓势的开源软件，其背后原因多多少少就是缺乏商业化公司的运作。

Hadoop 的商业生态

大量商业公司基于 Hadoop 构建产品服务实现营收，云计算公司直接拉起 Hadoop 体系工具作为大数据云计算服务，软件集成商通过包装 Hadoop 引擎提供客户大数据处理能力，知识机构(包括书籍出版社、Hadoop 培训机构)通过培训 Hadoop 开发运维体系实现营收和利润，上述种种商业行为均基于 Hadoop 体系实现商业利润。整个 Hadoop 开创了开源大数据的新概念，并由此养活大数据行业数不胜数的参与者。这波参与者享受了开源 Hadoop 的收益，同时也在为 Hadoop 贡献知识。

如果说 Google 三篇论文发表后敲开了大数据时代的理论大门，但论文绝逼异常高冷、不接地气、无法落地投产。真正人人皆用大数据的时代是直到开源社区提供了成熟的 Hadoop 软件生态体系之后，我们才可以说企业界方才逐步进入到大数据时代。可以说，当代 Hadoop 的诞生，为企业大数据应用推广起到了决定性作用。

大数据Hadoop这些年的发展回顾：致敬那些浪潮之巅的英雄

猜你喜欢